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Preface 前 言 
为 什么 要 写 这 本 书 


当 这 本 书 的 写作 接近 尾声 的 时 候 ， 回 过 头 来 看 看 这 一 年 多 的 写作 
历程 ， 不 由 得 心 生 感叹 ， 这 是 一 个 痛 并 快乐 着 的 过 程 。 不 必 说 牺牲 了 
多 少 个 周末 ， 也 不 必 计 算 多 少 个 夜晚 伏案 写作 ， 单 是 克服 写作 过 程 中 
因 疲 荔 而 进发 出 来 的 入 得 、 犹 豫 和 动 择 等 情绪 都 觉得 是 件 不 容易 的 事 
情 。 但 不 管 有 怎么 说 ， 这 最 终 是 个 沉淀 和 收获 的 过 程 ， 写 作 的 同时 我 也 
和 读者 们 一 样 在 进步 。 为 什么 要 写 这 本 书 ? 可 以 说 旦 机 缘 巧 合 。 机 械 
工业 出 版 社 的 杨 福 川 老师 联系 到 我 ， 说 他 们 打算 策划 一 本 关于 高 质量 
Python 编 程 方 面 的 书籍 ， 问 我 有 没有 兴趣 加 入 。 实 话 实 说 ， 最 开始 我 
是 持 否 定 态 度 的 ， 一 则 因为 业余 时 间 实 在 有 限 ， 无 法 保证 我 "工作 和 生 
活 要 平衡 "的 理念 ， 二 则 觉得 目 己 水 平 有 限 ， 在 学 习 Python 的 道路 上 我 
和 王 千 万 万 读者 一 样 ， 只 是 一 个 普通 的 “朝圣 者 ”， 我 也 有 迷惑 不 解 的 
时 候 ， 在 没有 修炼 到 大 彻 大 悟 之 前 拿 什 么 来 给 人 传道 授 业 ? 是 赖 勇 浩 
老师 的 加 入 给 我 注入 了 一 针 强 心 剂 ， 他 丰富 的 Python 项 目 经 验 以 及 长 
期 活跃 于 Python 社区 所 积累 下 来 的 名 望 无 形 中 给 了 我 一 份 信心 。 杨 老 
师 的 发 励 和 文 持 也 更 加 坚定 了 我 的 态度 ， 经 过 反复 考虑 和 调整 目 己 的 
心态 ， 节 终 我 决定 和 赖 老师 一 起 完成 这 本 书 。 因 为 我 也 经 历 过 从 零 开 
始 的 Python 学 习 过 程 ， 我 也 遇 到 过 各 种 困惑 ， 经 历 过 不 同 的 曲折 ， 这 
些 可 能 也 正 征 每 一 个 学 习 Python 的 人 从 最 初 到 进 阶 这 一 过 程 中 都 会 遇 
到 的 问题 。 抱 着 分 享 自己 在 学 习 和 工作 中 所 积累 的 一 点 微薄 经 验 的 心 
仿 ， 我 开始 了 本 书 的 写作 之 旅 。 这 个 过 程 也 被 我 当 作 是 对 目 己 学 过 的 
知识 的 一 种 梳理 。 如 果 与 此 同时 ， 还 能 够 给 读者 市 来 一 些 局 示 和 思 
索 ， 那 将 是 这 本 书 所 能 市 给 我 的 最 大 收获 了 。 


读者 对 象 


:有 一 定 的 Python 基 础 ， 希 望 通过 项 目 最 佳 实践 来 提升 目 己 的 相关 
Python 人 员 。 


-希望 进一步 掌握 python 相关 内 部 机 制 的 技术 人 员 。 


-希望 写 出 更 高 质量 、 更 Pythonic 代 码 的 编程 人 员 。 


.开设 相关 课程 的 大 专 院 校 师 生 。 
如 何 疯 读本 书 


首先 需要 注意 的 是 ， 本 书 并 不 是 入 门 级 的 语法 介绍 类 的 书籍 ， 因 
此 在 阅读 本 书 之 前 假定 你 已 经 掌握 了 最 基础 的 Python 语法 。 如 采 没 
有 ， 也 没有 关系 ， 你 可 以 先 找 一 本 最 简单 的 介绍 Python 语 法 的 书籍 看 
看 ， 竹 试 写 儿 个 Python 小 程序 之 后 再 来 阅读 本 书 。 


本 书 分 为 8 草 ， 主 要 从 编程 惯用 法 、 基 础 语法 、 库 、 设 计 模 式 、 内 
部 机 制 、 开 发 工具 、 人 性 能 前 析 与 优化 等 方面 解读 如 何 编写 高 质量 的 
Python 程序 。 每 个 章节 的 内 容 都 以 建议 的 形式 呈现 ， 这 些 建 议 或 源 于 
实际 项 目 应 用 经 验 ， 或 源 于 对 Python 本 质 的 理解 和 探讨 ， 或 源 于 社区 
推荐 的 做 法 。 它 们 能 够 帮助 读者 快速 完成 从 入 门 到 进 阶 的 这 个 过 程 。 


由 于 各 个 章节 相对 独立 ， 因 此 无 须 花 费 整 段 的 时 间 从 头 开始 阅 
读 。 你 可 以 在 空 亲 的 时 候选 取 任意 感 兴趣 的 小 和 阅读 。 为 了 减轻 读者 
人 负担 ， 本 书 代码 尽量 保持 完整 ， 阅 读 过 程 中 无 须 额 外 下 载 其 他 相关 代 
公 。 


勘 座 和 文 皖 


由 于 作者 的 水 平 有 限 ， 加 之 编写 时 间 仓 促 ， 书 中 难免 会 出 现 一 些 
错误 或 者 不 准确 的 地 方 ， 有 恳请 读者 批评 指正 。 如 采 你 在 阅读 过 程 中 巡 
到 任何 问题 或 者 发 现任 何 错误 ， 欢 迎 发 送 邮件 至 邮箱 
highqualitypython@163.com， 我 们 会 尽量 一 一 解答 直到 你 满意 。 期 行 
能 够 得 到 你 的 真 涩 反馈 。 
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张 般 


第 1 章 引 论 


“罗马 不 是 一 天 建成 的 "， 编 写 代 码 水 平 的 提升 也 不 可 能 一 跷 而 
束 ， 通 过 一 点 一 滴 的 积 素 ， 才 能 达成 从 量变 到 质变 的 飞 距 。 这 种 积累 
可 以 从 很 多 方面 取得 ， 如 一 些 语言 层面 的 使 用 技巧 、 和 常见 的 注意 事 
项 、 编 程 风格 等 。 本 章 主要 探讨 Python 中 常见 的 编程 准则 ， 从 而 帮助 
读者 进一步 理解 Pythonic 的 本 质 。 本 章 内 容 包括 如 何 编写 Pythonic 代 
码 、 在 实际 应 用 中 需要 注意 的 一 些 事 项 和 值得 提倡 的 一 些 做 法 。 硕 户 
读者 通过 对 本 章 的 学 习 ， 可 以 在 实际 应 用 Pythonic 的 过 程 中 得 到 局 发 
和 帮助 。 


建议 1: 理解 Pythonic 概 念 


什么 是 Pythonic? 这 有 是 很 难 定义 的 ， 这 束 是 为 什么 大 家 无 法 通过 
搜索 引擎 找到 准确 答案 的 原因 。 但 很 难 定义 的 概念 绝 非 意味 着 其 定义 
没有 价值 ， 尤 其 不 能 否定 它 对 编写 优美 的 Python 代码 的 指导 作用 。 


对 于 Pythonic 的 概念 ， 众 人 各 有 目 己 的 看 法 ， 但 大 家 心目 之 中 都 
认同 一 个 更 具体 的 指南 ， 那 就 是 Tim Peters 的 《The Zen of Python》 
(Python 之 禅 ) 。 在 这 一 充满 着 禅 意 的 诗篇 中 ， 有 几 点 非常 深入 人 
心 : 


美 胜 丑 ， 显 胜 隐 ， 简 胜 杂 ， 杂 胜 乱 ， 平 胜 陡 ， 政 胜 密 。 


-找到 人 简单 问题 的 一 个 方法 ， 最 好 是 唯一 的 方法 (正确 的 解决 之 
让 六 


难以 解释 的 实现 ， 源 自 不 好 的 主意 ;如 有 非常 棒 的 主意 ， 它 的 实 
现 肯定 易于 解释 。 


不 仅 这 几 点 ， 其 实 《Python 之 禅 》 中 的 每 一 句 都 可 作为 编程 的 信 
条 。 十 的 ， 不 仅 是 作为 编写 Python 代码 的 信条 ， 以 它 为 信条 编写 出 的 
其 他 语言 的 代码 也 会 非常 漂亮 。 


(1) Pythonic 的 定义 


遵循 Pythonic 的 代码 ， 看 起 来 束 像 是 伪 代 码 。 其 实 ， 所 有 的 伪 代 
码 都 可 以 轻易 地 转换 为 可 执行 的 Python 代 码 。 比 如 在 Wikipedia 的 快速 
排序 趾 条 目 中 有 如 下 伪 代 码 : 


function quicksort('array') 
If length('array') 
return "array' // an array of zero or one elements is already sorted 
select and remove a pivot element 'pivot' from 'array' // see 'Choice of 
pivot' below 
create empty lists 'less' and 'greater' 
for each 'x' in "array' 
if 'x' 
< 'pivot' then append 'x' to 'less' 
else append 'x' to 'greater' 
return concatenate(quicksort('less'), list('pivot'), quicksort('greater')) 
// two recursive calls 


实际 上 ， 它 可 以 转化 为 以 下 同等 行 数 的 可 以 执行 的 Python 代 码 : 


def quicksort(array): 
less = []; greater = [] 
if len(array) <= 1: 
return array 
pivot = array.pop() 
for x in array: 
if x <= pivot: less.append(x) 
else: greater.append(x) 
return quicksort(less)+[pivot]+quicksort(greater) 


看 ， 行 数 一 样 的 Python 代码 甚至 可 读 性 比 伪 代 码 还 要 好 吧 ? 但 它 
真 的 可 以 运行 ， 结 果 如 下 : 


>>>quicksort([9,8,4,5,32,64,2,1,0,10,19,27]) 
[90,1,2,4,5,8,9,10,19,27,32,64] 


所 以 ， 综 合 这 个 例子 来 说 ，Pythonic 也 许可 以 定义 为 :充分 体现 
Python 目 吴 特色 的 代码 风格 。 接 下 来 就 看 看 这 样 的 代码 风格 在 实际 中 
是 如 何 体现 的 。 


(2) 代码 风格 


对 于 风格 ， 光 说 是 没有 用 的 ， 最 好 是 通过 例子 来 看 看 ， 因 为 例子 
看 得 见 ， 会 显得 更 真实 。 下 面 以 语法 、 库 和 应 用 程序 为 例 给 大 家 介 


在 语法 上 ， 代 码 风 格 要 充分 表现 Python 自身 特色 。 举 个 最 常见 的 
例子 ， 在 其 他 的 语言 (如 C 语 言 ) 中 ， 两 个 变量 交换 需要 如 下 的 代 
码 : 


利用 python 的 packaging/unpackaging 机 制 ，pythonic 的 代码 只 需要 


还 有 ， 在 人 吉 历 一 个 容器 的 时 候 ， 类 似 其 他 编程 语言 的 代码 如 下 : 


length = len(alist) 
i=0 
while i < length: 


do_sth_with(alist[i]) 
i += 1 


而 Pythonic 的 代码 如 下 : 


for i in alist: 
do_sth_with(i) 


灵活 地 使 用 迭代 器 是 一 种 Python 风 格 。 又 比如 ， 需 要 安全 地 关闭 
文件 摘 述 符 ， 可 以 使 用 以 下 with 语句 : 


with open(path, 'r') as f: 
do_sth_with(f) 


通过 上 述 代码 的 对 比 ， 能 让 大 家 清晰 地 认识 到 Pythonic 的 一 个 要 
求 ， 融 是 对 Python 语法 本 身 的 充分 发 挥 ， 写 出 来 的 代码 市 着 Python 味 
儿 ， 而 不 是 看 着 像 C 语 言 代 码 ， 或 者 Java 代 码 。 


应 当 追 求 的 是 充分 利用 Python 语法 ， 但 不 应 当 过 分 地 使 用 奇 技 淫 
巧 ， 比 如 利用 Python 的 Slice 语 法 ， 可 以 写 出 如 下 代码 : 


a = [1,2,3,4] 


print a[::-1] 
print c[::-1] 


如 果 不 是 同样 追求 每 一 个 语法 细 广 的 “ 老 乌 “， 这 段 代 码 的 作用 瓯 
怕 不 能 一 腿 束 看 出 来 。 实 际 上 ， 这 个 时 候 更 好 地 体现 Pythonic 的 代码 
是 充分 利用 Python 库 里 reversed0 函 数 的 代码 。 


print list(reversed(a)) 
print list(reversed(c)) 


(3) 标准 库 


写 Pythonic 程 序 需要 对 标准 库 有 充分 的 理解 ， 符 别 是 内 置 画 数 和 
内 置 数据 类 型 。 比 如 ， 对 于 字符 串 格 式 化 ， 一 般 这 样 写 : 


print 'Hello %s!' % ('Tom',) 


其 实 %s 古 非常 影响 可 读 性 的 ， 因 为 数量 多 了 以后， 很 难 清楚 哪 一 
个 占 位 符 对 应 哪 一 个 实 参 。 所 以 相对 应 的 Pythonic 代 码 是 这 样 的 : 


print 'Hello %(name)s!' % {f'name': 'Tom'} 


这 样 在 参数 比较 多 的 情况 下 尤其 有 用 。 


字符 串 
value = {'greet': 'Hello world', 'language': "Python '} 
value 


print '%(greet)s from %(language)s.' % 


% 占 位 符 来 自 于 大 家 的 先 验 知识 ， 其 实 对 于 新 手 而 言 ， 有 上 感 “莫名 
其 妙 "， 所 以 更 具有 Pythonic 风 格 的 代码 如 下 : 


print '{greet} from {language}.'.format(greet = 'Hello world', language = 
"Python ' ) 


str.format() 方 法 非常 清晰 地 表明 了 这 条 语句 的 意图 ， 而 且 模 板 的 使 
用 也 减少 了 许多 不 必要 的 字符 ， 使 可 读 性 得 到 了 很 大 的 提升 。 事 实 
上 ，strformat0 也 成 了 Python 最 为 推荐 的 字符 串 格 式 化 方法 ， 当 然 也 是 
最 Pythonicb 的 。 


(4) Pythonic 的 库 或 框架 


编写 应 用 程序 的 时 候 的 要 求 会 更 高 一 些 。 因 为 编写 应 用 程序 一 般 
需要 团队 合作 ， 那 么 可 能 你 编写 的 那 一 部 分 正好 十 团队 的 另 一 成 员 需 
要 调用 的 接口 ， 换 言 之 ， 你 可 能 正在 编写 库 或 框 淋 。 


程序 员 利 用 Pythonic 的 库 或 框架 能 更 加 容易 、 更 加 上 自然 地 完成 任 
务 。 如 有 果 用 Python 编写 的 库 或 框 砍 迫 使 程序 员 编 写 累 发 的 或 不 推荐 的 
代码 ， 那 么 可 以 说 它 并 不 Pythonic。 现 在 业内 通常 认为 Flask 这 个 框架 
是 比较 Pythonic 的 ， 它 的 一 个 Hello world 级 别 的 用 例如 下 : 


from flask import Flask 
app = Flask(__name _) 
@app.route('/') 
def hello(): 

return "Hello world!" 


if name == "” main " 
app.run() 


稍 有 编程 经 验 的 人 都 可 以 通过 上 例 认 识 到 利用 Python 编程 极为 容 
易 这 一 事实 。 一 个 Pythonic 的 框架 不 会 对 已 经 通过 惯用 法 完成 的 东西 
重复 发 明 “ 轮 子 ”"， 而 且 它 也 遵循 常用 的 Python 惯 例 。 创 建 Pythonic 的 框 
架 极 其 困难 ， 什 么 理念 更 酷 、 更 符合 语言 习惯 对 此 训 无 帮助 ， 事 实 上 
这 些 年 来 优秀 的 Python 代码 的 特性 也 在 不 断 演化 。 比 如 现在 认为 像 
generators 之 类 的 特性 尤为 Pythonic 。 


另 一 个 有 关 新 趋势 的 例子 是 : Python 的 包 和 模块 结构 日 益 规 范 
化 。 现 在 的 库 或 框架 跟随 了 以 下 淹 流 : 


- 包 和 模块 的 命名 采用 小 写 、 单 数 形式 ， 而 且 短 小 。 
包 通 第 仅 作 为 命名 空间 ， 如 只 包含 空 的 _jinit .py 文件 。 


[1| http://en.wikipedia.org/wiki/Quicksort ° 


建议 2: 编写 Pythonic 代 三 


如 何 编写 更 加 Pythonic 的 代码 ， 与 定义 什么 是 Pythonic 一 样 困 难 。 
在 这 里 ， 只 能 给 出 一 些 经 验 之 谈 ， 和 希望 对 大 家 有 所 帮助 。 


(1) 要 避免 劣化 代码 


与 优化 代码 对 应 ， 劣 化 代码 束 是 一 开始 写 出 来 承 是 不 合理 的 代 
码 ， 比 如 不 合适 的 变量 命名 等 。 通 前 有 以 下 几 个 值得 注意 的 地 方 : 


1) 避免 只 用 大 小 写 来 区 分 不 同 的 对 象 。 如 a 是 一 个 数值 类 型 变 
量 ，A 和 十 String 类 型 ， 虽 然 在 编码 过 程 中 很 容易 区 分 二 者 的 侣 义 ， 但 这 
样 做 晕 无 益处 ， 它 不 会 给 其 他 阅读 代码 的 人 市 来 多 少 便利 。 


2) 避免 使 用 容易 引起 泥 清 的 名 称 。 容易 引起 混淆 的 名 称 的 使 用 
情形 包括 :重复 使 用 已 经 存在 于 上 下 文中 的 变量 名 来 表示 不 同 的 类 
型 ， 误 用 了 内 建 名 称 来 表示 其 他 含义 的 名 称 而 使 之 在 当前 命名 空间 被 
屏蔽 ， 没 有 构建 新 的 数据 类 型 的 情况 下 使 用 类 似 于 element 、list、dict 
等 作为 变量 名 ; 使 用 o 《字母 0 小 写 的 形式 ， 容 易 与 数值 0 混 消 ) 、1 

(字母 L 小 写 的 形式 ， 容 易 与 数值 1 混淆 ) 等 作为 变量 名 。 因 此 推荐 变 
量 名 与 所 要 解决 的 问题 域 一 至。 有 如 下 两 个 示例 ， 示 例 二 比 示 例 一 更 
好 * 


示例 一 : 


>>> def funA(list,num): 
训 for element in list: 
if num==element: 
return True 
else: 


pass 


网 一 


>>> def find_num(SsearchList,num) : 
2 有 for listValue in SearchList : 
If num==listValue: 
return True 
else: 
pass 


3) 不 要 害怕 过 长 的 变量 名 。 为 了 使 程序 更 容易 理解 和 阅读 ， 有 
的 时 候 长 变量 名 古 必要 的 。 不 要 为 了 少 写 儿 个 字母 而 过 分 缩写 。 下 例 
征 一 个 用 来 保存 用 户 信息 的 字典 结构 ， 变 量 名 person_info 比 pi 的 可 读 
性 要 强 得 多 。 


>>> person_info={'name':'Jon','IDCard':'200304', 'address':'Num203,Monday Road ' ， 
'email':'test@gail.com'} 


(2) 深入 认识 Python 有 助 于 编写 Pythonic 代 码 


可 以 从 以 下 几 个 方面 进行 着 手 : 


:全面 掌握 Python 提 供给 我 们 的 所 有 特性 ， 包 括 语言 特性 和 库 特 
性 。 其 中 最 好 的 学 习 方 式 应 该 是 通读 官方 手册 中 的 Language Reference 
和 Library Reference。 掌 握 了 语言 特性 和 库 特 性 ， 以 后 许多 “惯用 法 ” 目 
然而 然 束 掌 握 了 ， 写 代码 的 时 候 ， 目 然 会 使 用 常见 的 、 公 认 的 、 人 简短 
的 惯用 法 来 实现 预期 效果 ， 也 使 得 代码 显得 尤为 Pythonic 。 


: 随 着 Python 的 版 本 更 狐 、 时 间 的 推移 ，Python 语 言 不 断 演进 ， 社 
区 不 断 成 长 ， 还 需要 学 习 每 个 Python 新 版 本 提供 的 新 特性 ， 以 及 掌握 
它 的 变化 趋势 。 从 另 一 角度 来 看 ， 一 方面 Python 语言 推荐 使 用 大 量 的 


惯用 法 来 完成 任务 (“完成 任务 的 唯一 方法 ”) ; 另 一 方面 ， 社 区 不 断 
演变 的 新 惯用 法 反 过 来 又 影响 了 语言 的 进化 ， 以 更 好 地 文 持 惯用 法 。 
比如 早年 的 Pythonista 党 用 dict.has_key(0) 方 法 来 判断 字典 对 象 是 否 包含 
某 个 元 素 ， 但 新 版 本 的 Python 中 提供 了 in 操作 符 (支持 多 种 容器 类 
型 ) 取代 它 。 改 变 习 惯 的 阻力 很 大 ， 而 克服 这 些 阻力 的 唯一 方法 就 是 
加 深 对 Python 的 认识 ， 因 为 在 语言 文 持 正确 的 惯用 法 之 后 ， 非 推荐 的 
代码 通常 执行 起 来 更 慢 。 所 以 说 ， 不 更 狐 知 识 是 不 行 的 。 


.深入 学 习 业 界 公 认 的 比较 Pythonic 的 代码 ， 比 如 Flask、gevent 和 
requests 等 。 以 requests 这 个 通过 HTTP (HTTPS) 协议 获取 网 络 资源 的 
程序 库 为 例 ， 要 获取 带 有 Basic Auth 的 网 络 资源 时 ， 代 码 如 下 : 


import requests 
r = requests.get('https://api.github.com', auth=('user', 'pass')) 
print r.status_code 


# 200 
# 'application/json' 


而 使 用 Python 标准 库 httplib2 时 ， 代 码 就 非常 复杂 ， 程 序 员 需要 了 
解 相 当 多 的 关于 HTTP 协 议和 Basic Auth 的 知识 才能 编程 。 


import Url11Lib2gh_url = 'https://api.github.com' 

req = urllib2.Request(gh_url) 

password_manager = urllib2.HTTPPasswordMgrwithDefaultRealm() 
password_manager.add_ password(None, gh_url, 'user', 'pass') 
auth_manager = urllib2.HTTPBasicAuthHandler (password_manager) 
opener = urllib2.build opener(auth_manager) 
urllib2.install opener (opener) 

handler = urllib2.urlopen(req) 

print handler.getcode() 


# 200 
# 'application/json' 


看 ， 使 用 一 个 Pythonic 的 程序 库 可 以 简化 很 多 工作 量 ! 那么 深入 
学 习 理 解 类 似 requests 的 高 质量 程序 库 市 给 我 们 的 收获 应 该 完全 可 以 预 


期 : 一 定 是 非常 大 的 ! 

最 后 ， 除 了 修炼 内 功 外 ， 也 可 以 党 试 利 用 工具 达到 事半功倍 的 效 
果 。 所 以 接 下 来 介绍 风格 检查 程序 PEP8。 其 实 一 开始 PEP8 是 一 篇 关于 
Python 编码 风格 的 指南 ， 它 提出 了 保持 代码 一 致 性 的 细 下 要 求 。 它 至 
少 包 括 了 对 代码 布局 、 注 释 、 命 名 规范 等 方面 的 要 求 ， 在 代码 中 遵循 
这 些 原则 ， 有 利于 编写 Pythonic 的 代码 。 比 如 ， 对 代码 的 换行 ， 不 好 
的 风格 如 下 : 


If foo == 'blah': do_blah_thing() 
do_one(); do_two(); do_three() 


而 Pythonic 的 风格 则 是 这 样 的 : 


If foo == 'blah': 
do_blah_thing() 

do_one() 

do_two() 

do_three() 


如 果 要 “人 肉 ” 检 查 代 码 是 否 符合 PEP8 规 范 ， 则 比较 困难 ， 而 且 容 
易 跟 同僚 引发 争论 。 所 以 Johann C. Rocholl 开 发 了 一 个 应 用 程序 来 进行 
令 测 ， 就 是 应 用 程序 PEP8。 当 然 ， 它 是 使 用 Python 开 发 的 ， 安 装 它 非 
常 容易 。 


$ pip install -U pep8 


在 自己 的 shell 中 执行 这 一 命令 就 可 以 安装 成 功 了 (首先 需要 安装 
pip) 。 然 后 即 可 简单 地 用 它 检测 一 下 自己 的 代码 。 


$ pep8 --first optparse.py 

optparse.py:69:11: E401 multiple imports on one line 
optparse.py:77:1: E302 expected 2 blank lines, found 1 
optparse.py:88:5: E301 expected 1 blank line, found 0 
optparse.py:222:34: W602 deprecated form of raising exception 


optparse.py:347:31: E211 whitespace before '(' 
optparse.py:357:17: E201 whitespace after '{ 
optparse.py:472:29: E221 multiple spaces before operator 
optparse.py:544:21: W601 .has_key() is deprecated, use 'in' 


可 以 看 到 上 面 有 许多 错误 和 和 警告， 然后 我 们 按 图 索 戏 逐一 修复 它 
们 束 可 以 了 。 如 采 嫌 这 种 报表 不 够 细致 ， 可 以 考虑 使 用 --show-source 
参数 让 PEP8 显 示 每 一 个 错误 和 警告 对 应 的 代码 。 


$ pep8 --show-source --show-pep8 testsuite/E40.py 
testsuite/E40.py:2:10: E401 multiple imports on one line 
import os, sys 

八 


Imports should usually be on separate lines. 


Okay: import os\nimport sys 
E401: import sys, os 


看 ， 它 甚至 可 以 给 出 “正确 ”的 写法 ! 除了 针对 某 一 个 源 代码 文件 
以 外 ， 它 还 可 以 直接 检测 一 个 项 目的 质量 ， 并 通过 直观 的 报表 给 出 报 


全 六 


$ pep8 --statistics -qq Python-2.5/Lib 
232 E201 whitespace after '[' 


599 E202 whitespace before ')! 
631 E203 whitespace before ',! 
842 E211 whitespace before '(! 


2531 E221 multiple spaces before operator 
4473 E301 expected 1 blank line, found 0 

4006 E302 expected 2 blank lines, found 1 
165 E303 too many blank lines (4) 


325 E401 multiple imports on one line 

3615 E501 line too long (82 characters) 

612 W601 .has_key() is deprecated, use 'in' 
1188 W602 deprecated form of raising exception 


PEP8 有 优秀 的 插件 架构 ， 可 以 方便 地 实现 特定 风格 的 检测 〈 例 
如 ， 有 些 公司 、 团 队 会 定义 自己 的 风格 ) ; 它 生 成 的 报告 易于 处 理 ， 
可 以 很 方便 地 与 编辑 器 集成 例如， 实现 点 击 出 错 信息 跳 转 到 相应 代 
码 行 ) 。 所 以 这 是 一 个 非常 有 用 的 工具 ， 它 可 以 提升 你 对 Pythonic 的 
认识 ， 达 到 编写 高 质量 代码 的 目的 。 


PEP8 不 是 唯一 的 编程 规范 ， 事 实 上 ， 有 些 公 司 制 定 的 编程 规范 也 
非常 有 参考 意义 ， 比 如 Google Python Style Guide。 同 样 ，PEP8 也 不 是 
唯一 的 风格 检测 程序 ， 类 似 的 应 用 还 有 Pychecker、Pylint、Pyflakes 
等 。 其 中 ，Pychecker 是 Google Python Style Guide 推 荐 的 工具 ; Pylint 
因 可 以 非常 方便 地 通过 编辑 配置 文件 实现 公司 或 团队 的 风格 检测 而 受 
到 许多 人 的 青睐 ，Pyflakes 则 因为 易于 和 集成 到 vim 中 ， 所 以 使 用 的 人 也 
非常 多 。 


其 实 Pythonic 的 代码 ， 往 往 是 放弃 目 我 风格 的 代码 ， 而 要 有 “放弃 
目 我 风格 ”的 觉悟 ， 是 非常 困难 、 非 常 痛 藻 的 。 要 突破 这 种 瓶 开 ， 完 成 
目 我 旷 变 ， 除 了 需要 付出 许多 精力 去 学 习 外 ， 参 考 更 好 的 书籍 进行 辅 
助 也 是 相当 有 帮助 的 。 目 前 市 面 上 针对 编写 "高 质量 ”的 Python 程序 的 
方法 的 书籍 并 不 多 ， 本 书 应 古 一 本 比较 好 的 参考 资料 。 作 为 作者 ， 我 
们 也 真心 希望 目 己 的 一 点 点 经 验 分 诗 能 够 对 读者 有 所 帮助 。 


建议 3: 理解 Python 与 C 语 言 的 不 同 之 处 


我 们 都 知道 ，Python 奈 层 钙 用 C 语 言 实现 的 ， 但 切忌 用 C 语 言 的 思 
维和 风格 来 编写 Python 代码 。 对 于 那些 在 学 习 Python 之 前 有 其 他 编程 
语言 (如 Java、C# 等 ) 经 验 的 程序 员 来 说 ， 尤 其 重要 的 是 : 不 要 使 用 
之 前 的 编程 思想 。Python 与 它们 有 很 多 不 同 ， 以 下 从 语法 方面 来 进行 
简单 分 析 。 


(1) “二 5 


与 C、C++、Java 等 语言 使 用 花 括号 {} 来 分 隔 代 码 段 不 同 ，Python 
中 使 用 严格 的 代码 缩 进 方式 分 隔 代 码 块 ， 空 格 或 者 Tab 键 不 再 是 你 心血 
来 潮 的 时 候 可 以 随便 融融 解 则 的 了 ， 对 于 Python 解 释 器 而 言 ， 它 们 直 
接 关 平 代码 的 语法 和 逻辑 ， 一 不 小 心 就 会 出 现 unexpected indent 错 误 。 
Python 的 这 一 特点 也 曾 引 起 不 少 争 议 ， 强 制 代码 缩 进 就 像 一 把 双 丸 
剑 ， 有 利 有 弊 。 对 于 从 其 他 编程 语言 转 过 来 学 习 Python 的 人 来 说 ， 也 
许 需要 一 段 时 间 去 适应 。 但 不 可 和 否认， 严格 的 缩 进 确实 能 让 代码 更 加 
规范 、 整 齐 ， 可 读 性 和 可 维护 性 都 会 更 高 。 避 免 缩 进 带 来 的 困扰 的 方 
法 之 一 就 是 养 成 民 好 的 习惯 ， 统 一 缩 进 风 格 ， 不 要 混用 Tab 键 和 空格 。 


(2 ) Li 
C 语 言 中 单 引号 (') 与 双 引 号 (") 有 严格 的 区 别 ， 单 引号 代表 一 


个 字符 ， 它 实际 对 应 于 编译 侨 所 采用 的 字符 集中 的 一 个 整数 值 。 例 如 
在 ASCII 码 中 ，'a' 与 97 相 对 应 。 而 双 引 号 则 表示 字符 串 ， 默 认 以 \0' 结 


尾 。 但 在 Python 中 ， 单 引号 与 双 引 号 没有 明显 区 别 ， 仅 仅 在 输入 字符 
串 内 容 不 同时 ， 在 使 用 上 存在 微小 差异 。 


>>> String1 = "He said, \"Hello\"" # 
字符 串 中 本 身 的 双 引 号 需要 转 义 

>>> string1 

"He said, "He1lL1o" 

>>> String2 = 'He Said, "Hel10"' # 
字符 串 本 身 的 双 引 号 不 需要 转 义 

>>> String2 

"He said,"Hello™' 


(3) 三 元 操作 符 “?:” 


三 元 操作 符 是 if...else 的 简写 方法 ， 语 法 形式 为 C? X: Y， 它 表示 当 
条 件 C 为 True 的 时 候 取 值 X，C 为 False 的 时 候 取 值 为 Y。 其 简洁 的 表达 
形式 一 直 很 受 欢迎 。 但 在 Python 2.5 之 前 并 不 支持 三 元 操作 符 。 为 此 ， 
人 们 想 出 了 不 少 替代 方式 ， 但 在 特殊 情形 下 存在 一 些 问题 ， 因 此 很 多 
人 对 Python 语言 本 喘 加 入 该 特征 也 提出 了 不 少 建议 ， 最 终 PEP308 被 接 
受 ， 根 据 提议 采用 if...else... 形 式 实现 条 件 表达 式 。C ? X:Y 在 Python 中 
等 价 的 形式 为 X if C else Y， 盈 |: 


>>> X=0 

>>> Y=-2 

>>> print X if X<Y else Y 
-2 


(4) switch...case 


Python 中 没有 像 C 语 言 那样 的 switch...case 分 支 语 句 ， 不 过 这 不 是 
什么 难事 ，Python 中 有 很 多 替代 的 解决 方法 。 假 设 ， 用 C 语 言 实现 的 


switch...case 语 句 如 下 : 


switch(n) { 

case 0: 
printf("You typed zero.\n"); 
break; 

case 1: 
printf("You are in top.\n"); 
break; 

case 2: 
printf("n is an even number\n"); 

default: 
printf("Only single-digit numbers are allowed\n"); 
break; 


} 


与 以 上 C 语 言 中 switch...case 对 应 的 Python 实 现 如 下 : 


if n == 0: 
print "You typed zero.\n" 
elif n== 1: 
print "You are in top.\n" 
人 
print "n is an even number\n" 


print "Only single-digit numbers are allowed\n" 


或 者 使 用 以 下 跳 转 表 来 实现 : 


def f(x): 
return { 
0: "You typed zero.\n", 
1: "You are in top.\n", 
2: "nis an even number\n" 
}.get(n, "Only single-digit numbers are allowed\n") 


以 上 只 是 简单 列举 了 几 个 Python 和 其 他 语言 的 不 同 点 ， 事 实 上 ， 
其 差异 性 远 远 不 止 这 些 。 但 总 归 一 句 话 ， 不 要 被 其 他 语言 的 思维 和 习 
惯 困扰 ， 掌 握 Python 的 哲学 和 思维 方式 才 是 硬 道理 。 正 如 前 面 所 说 ， 
要 舍得 抛弃 具有 自我 风格 的 代码 ， 尽 量 遵 循 Pythonic 代 码 的 编码 规范 
和 风格 。 


建议 4 在 代码 中 适当 添加 注释 


Python 中 有 3 种 形式 的 代码 注释 ， 块 注释 、 行 注释 以 及 文档 注释 
(docstring) 。 这 3 种 形式 的 惯用 法 大 概 有 如 下 几 种 ; 


1) 使 用 块 或 者 行 注释 的 时 候 仅 仅 注 释 那 些 复 杂 的 操作 、 算 法 ， 
有 可 能 别人 难以 理解 的 技巧 或 者 不 够 一 目 了 然 的 代码 。 


2) 注释 和 代码 隔 开 一 定 的 距离 ， 梧 盯 在 信 注 释 之 后 最 字 多 图 儿 行 
空 日 再 写 代 码 。 下 面 两 行 代码 显然 第 一 行 的 阅读 性 要 好 。 


X=X+ 工 # increace x by 1 
@ 


x=x+1 #increase x by 1 
@ 


3) 给 外 部 可 访问 的 函数 和 方法 (无 论 是 百科 日) 演 加 文 稍 注 释 。 
注释 要 清楚 地 描述 方法 的 功能 ， 并 对 参数 、 返 回 值 以 及 可 能 发 生 的 异 
各 进行 说 明 ， 使 得 外 部 调用 它 的 人 员 仅仅 看 docstring 就 人 正确 使 用 。 
较为 复杂 的 内 部 方法 也 需要 进行 注释 。 推 荐 的 函数 注释 如 下 : 


def FuncName(parameter1 , parameter2): 
'""Describe what this function does ， 
#such as "Find whether the Special String is in the queue or not" 
Args: 
parameter1: parameter type, what is this parameter Used for. 
#such as strqueue:string,string queue list for Search 
parameter2: parameter type, what is this parameter used for. 
#such as str:string,string to find 
Returns: 
return type, return value. 
#such as boolean,sepcial string found return True,else return False 


function body 


4) 推荐 在 文件 头 中 包含 copyright 申 明 、 模 块 描述 等 ， 如 有 必要 ， 
可 以 考虑 加 入 作者 信息 以 及 变更 记录 。 


Licensed Materials - Property of CorpA 

(C) Copyright A Corp. 1999, 2011 All Rights Reserved 

CopyRight statement and purpose... 
File Name ; Comments.py 
Description : description what the main function of this file 
Author: Author name 
Change Activity: 

list the change activity and time and author information. 


有 人 说 ， 写 代码 整 像 写 请， 你 见 过 谁 在 目 己 写 的 诗 里 加 注释 吗 ? 
这 种 说 法 受到 许多 人 的 追捧 ， 包 括 一 些 Python 程 序 员 。 但 我 的 看 法 
征 ， 代 码 跟 诗 不 太一 样 ， 需 要 适当 添加 注释 。 注 释 直 接头 系 到 代码 的 
可 读 性 和 可 维护 性 ， 同 时 它 还 能 够 帮助 发 现 错误 的 藏 喘 之 处 。 因 为 代 
码 古 说 明 你 脏 么 做 的 ， 而 好 的 注释 能 够 说 清楚 你 想 做 什么 ， 它 们 相 辅 
相 成 。 但 往往 有 些 程序 员 并 不 重视 它 ， 原 因 是 多 方面 的 ， 有 人 觉得 程 
序 的 实现 才 是 最 重要 的 ， 至 于 注释 是 一 件 痕 费时 间 的 事情 ; 还 有 的 人 
明明 知道 注释 很 重要 ， 可 十 太 懒 ， 不 愿意 写 或 者 随便 应 付 ; 也 有 人 重 
视 注释 但 却 不 得 要 领 ， 反 而 使 其 成 为 代码 的 一 种 素 资 。 下 面 针对 以 上 
几 个 心态 举 几 个 实际 中 常见 例子 。 


示例 一 : 代码 即 注释 (不 写 注释 ) 。 没 有 注释 的 代码 通常 会 给 他 
人 的 阅读 和 理解 市 来 一 定 困难 ， 即 使 是 目 己 写 的 代码 ， 过 一 段 时 间 再 
回头 阅读 可 能 也 需要 一 定时 间 才 能 理解 当初 的 思路 。 


a=3 

n=5 
count, sn, tn=1, 0,0 
while count<=n: 


count+=1 
print sn 


示例 二 : 注释 与 代码 重复 。 注 释 应 该 是 用 来 解释 代码 的 功能 、 原 
因 以 及 想法 的 ， 而 不 是 对 代码 本 号 的 解释 。 


# coding=utf-8 
print "please input number ny" 


n=input() 

print "please input number m" 
m=input() 

t=n/2 # 七 
是 n 


的 一 半 
# 
循环 ， 条件 为 t*m/n 


Tn 
while(t*m/(n+1) < n): 
ee t=0.5*m+n/2 # 
重新 计算 t 


print t 


示例 三 : 利用 注释 语法 快速 删除 代码 。 对 于 不 再 需要 的 代码 ， 应 
该 将 其 删除 ， 而 不 是 将 其 注释 掉 。 即 使 你 担心 以 后 还 会 用 到 ， 版 本 控 
制 工 具 也 可 以 让 你 轻松 找 回 被 删除 的 代码 。 


"""following code is no longer needed since there is a better way 
if x>y:t=x;x=y;y=t 

if X>Z:t=Z;Z=X);X=t 

if y>z:t=y;y=z;z=t 

print "the order from small to big is: %d %d %d" % (x,y,z) 
order_list=[x,y,z] 


order_list.sort() 
print order_list 


其 他 比较 音 见 的 问题 还 包括 : 代码 不 断 更 狐 而 注释 却 没 有 更 新 ; 
注释 比 代 码 本 喘 还 复杂 烦琐 ， 将 别处 的 注释 和 代码 一 起 拷贝 过 来 ， 但 
上 下 文 的 变更 导致 注释 与 代码 不 同步 ， 更 有 个 别人 将 注释 当做 目 己 的 
娱乐 空间 从 而 留 下 个 性 特征 等 ， 这 几 种 行为 都 是 乎 时 要 注意 避免 的 。 


建议 5: 通过 适当 添加 空 行使 代码 布局 更 
为 优雅 、 合 理 


布局 清晰 、 整 污 、 优 雅 的 代码 能 够 给 阅读 它 的 人 市 来 愉悦 感 ， 而 
且 它 能 帮助 开发 者 之 间 进 行 民 好 的 沟通 。 在 一 个 团队 中 ， 保 持 民 好 的 
代码 格式 需要 团队 成 员 在 选取 一 套 合 适 的 代码 格式 规则 的 基础 上 遵从 
和 应 用 。 同 时 它 需 要 每 个 团队 成 员 树立 正确 的 态度 ， 因 为 实际 工作 中 
有 很 多 开发 者 抱 着 这 样 的 想法 : “代码 能 工作 才 是 最 重要 的 "， 但 往往 
代码 会 不 断 修改 ， 且 可 读 性 直接 关系 到 可 维护 性 和 可 扩展 性 。 因 此 我 
们 需要 端正 态度 一 一 “代码 不 是 恒定 的 ， 只 有 风格 才能 延续 ， 能 工作 的 
代码 和 整洁、 优雅 的 格式 同样 重要 ”。 


为 了 让 读者 更 加 深入 地 理解 代码 布局 的 重要 性 ， 我 们 先 来 看 一 个 
猜 数 子 游 戏 的 示例 。 下 面 两 段 代 码 ， 编 码 完 全 相同 ， 只 是 在 排版 上 做 
了 一 定 修改 ， 你 觉得 哪个 更 加 容易 阅读 呢 ? 


示例 一 : 


import random 
guesses made = 0 
name = raw_input('Hello! What is your name?\n') 
number = random.randint(1, 20) 
print 'Well, {0}, I am thinking of a number between 1 and 20.'.format(name) 
while guesses made < 6: 
guess = int(raw_ input('Take a guess: ')) 
guesses made += 1 
if guess < number: 
rint 'Your guess is too low.' 
if guess > number: 
print 'Your guess is too high.' 
if guess == number: 
Break 
if guess == number: 
print 'Good job, {0}! You guessed my number in {1} guesses!'.format(name, 
guesses_made) 
else: 
print 'Nope. The number I was thinking of was {0}'.format(number) 


示例 二 : 


import random 
guesses made = 0 
name = raw_input('Hello! What is your name?\n') 
number = random.randint(1, 20) 
print 'Well, {0}, I am thinking of a number between 1 and 20.'.format(name) 
while guesses made < 6: 
guess = int(raw_ input('Take a guess: ')) 
guesses made += 1 
If guess < number:print 'Your guess is too low.' 
If guess > number:print 'Your guess is too high.' 
if guess == number:break 
If guess == number:print 'Good job, {0}! You guessed my number in {1} guesses!'. 
format(name, guesses_made) 
else:print 'Nope. The number I was thinking of was {0}'.format(number) 


看 了 上 面 两 个 例子 ， 相 信 很 多 读者 都 倾 品 于 阅读 第 一 个 例子 ， 这 
就 是 代码 布局 和 排版 市 给 我 们 的 最 直观 的 感受 (注意 ， 本 书 其 他 章 市 
的 例子 为 了 尽量 使 代码 占用 更 少 的 篇 幅 ， 采 取 了 第 二 种 排版 形式 ， 但 
在 实际 项 目 开 发 中 更 推荐 第 一 种 ) 。 和 其 他 语言 一 样 ，Python 代 码 布 
局 也 有 一 些 基本 规则 可 以 遵循 。 


1) 在 一 组 代码 表达 完 一 个 完整 的 思路 之 后 ， 应 该 用 空白 行进 行 间 
阳 。 如 每 个 画 数 之 间 ， 导 入 声明 、 变 量 赋值 等 。 通 俗 点 讲 束 不 要 在 
一 段 代码 中 说 明 几 件 事 。 推 荐 在 函数 定义 或 者 类 定义 之 间 空 两 行 ， 在 
类 定义 与 第 一 个 方法 之 间 ， 或 者 需要 进行 语义 分 割 的 地 方 空 一 行 。 如 
示例 一 在 import 声 明和 变量 赋值 之 间 搬 入 了 空 行 。 但 读者 需要 注意 的 
征 : 空 行 古 在 不 隔断 代码 之 间 内 在 联系 的 基础 上 插入 的 ， 也 就 是 说 有 
关联 的 代码 还 是 需要 保持 紧 旋 、 连 续 。 在 示例 一 中 ， 如 采 你 在 过 和 else 
之 间 插 入 空 行 束 显 得 非常 没有 必要 ， 就 像 下 面 的 代码 : 


if guess == number: 
print 'Good job, {0}! You guessed my number in {1} guesses!'.format(name, 
guesses_made) 


else: 
print 'Nope. The number I was thinking of was {0}'.format(number) 


2) 尽量 保持 上 下 文 语义 的 易 理 解 性 。 如 当 一 个 函数 需要 调用 另 一 
个 函数 的 时 候 ， 尽 量 将 它们 放 在 一 起 ， 最 好 调用 者 在 上 ， 被 调用 者 在 
下 。 例 如 下 面 的 代码 : 


def A(): 
B 


def B(): 
pass 


3) 避免 过 长 的 代码 行 ， 每 行 最 好 不 要 超过 80 个 字符 。 以 每 屏 能 够 
显示 完整 代码 而 不 需要 拖 动 深 动 条 为 最 佳 ， 超 过 的 部 分 可 以 用 圆 括 
号 、 方 括号 和 人 花 括号 等 进行 行 连接 ， 并 且 你 持 行 连接 的 元 素 垩 直 对 
齐 。 例 如 下 面 的 代码 : 


>>> x=('this is a very long string' 

,it is used for testing line limited characters') 

>>> print x 

this is a very long stringit is used for testing line limited characters 

>>>def Draw_ Line(ponitxX1,pointY1,pointX2=1, pointY2=2, 
color='green',width=2, style="'bold' ): 


4) 不 要 为 了 保持 水 平 对 齐 而 使 用 多 余 的 空格 ， 其 实 使 阅读 者 尽 可 
能 容易 地 理解 代码 所 要 表达 的 意义 更 重要 。 如 下 列 代码 的 主要 目的 是 
赋值 ， 为 了 可 以 保持 对 齐 往往 会 造成 < 喧 宾 竺 主 ”。 


X= 5 
Year = 2013 
name = "Jam" 


d2 = {'spam':; 2,'eggs': 3} 


同时 也 不 要 在 一 行 有 多 个 命令 ， 如 不 要 将 X=1;Y=2; 直 接 写 在 一 行 
i 


5) 空格 的 使 用 要 能 够 在 需要 强调 的 时 候 警 示 读 者 ， 在 政 松 关 系 的 
实体 间 起 到 分 隔 作用 ， 而 在 具有 紧密 关系 的 时 候 不 要 使 用 空格 。 具 体 


细 世 如 下 : 
SE) 
in，not in，is，is not) 、 布 尔 运算 (and，or，not) ) 的 左右 两 边 应 该 

有 空格 ， 如 X==1。 
.逗号 和 分 号 前 不 要 使 用 空格 。 


if x == 4: print x, y; Xx, Le X 
X,Yy=Yy, x 


: print x , y 
序列 索引 操作 时 序列 名 和 [ ] 之 间 不 需要 空 


不 推荐 : if x == 4 


-函数 名 和 左 括 号 之 间 、 
格 ， 画 数 的 默认 参数 两 侧 不 需要 空格 。 


.强调 前 面 的 操作 符 的 时 候 使 用 空格 ， 如 -2 - 5 (在 -2 和 5 之 间 的 减 
号 前 后 需要 添加 空格 ) 、b*b + a*c (在 加 号 前 后 需要 添加 空格 ) 。 


建议 6: 编写 函数 的 4 个 原则 


函数 能 够 市 来 最 大 化 的 代码 重用 和 最 小 化 的 代码 元 余 。 精 心 设 计 
的 函数 不 仅 可 以 提高 程序 的 健壮 性 ， 还 可 以 增强 可 读 性 、 减 少 维护 成 
本 。 先 来 看 以 下 示例 代码 : 


def SendContent(ServerAdr,PagePath, StartLine,EndLine, sender, 
receiver,smtpserver,username, password): 
http = httplib.HTTP(ServerAdr) 
http.putrequest('GET', PagePath) 
http.putheader('Accept', 'text/html') 
http.putheader('Accept', 'text/plain') 
http.endheaders() 
httpcode, httpmsg, headers = http.getreply() 
If httpcode != 200:raise "Could not get document: Check URL and Path." 
doc = http.getfile() 
data = doc.read() 
doc.close() 
lstr=data.splitlines() 


j=0 

for i in lstr: 
j=j+1 
If i.strip() == StartLine: slice_ start=] #find slice start 
elif i,.strip() == EndLine: slice end=]j] #find slice end 


subject = "Contented get from the web" 

msg = MIMEText(string.join(lstr[slice start:slice end]), 'plain','utf-8') 
msg['Subject'] = Header(subject, 'utf-8') 

smtp = smtplib.SMTP() 

smtp.connect(smtpserver) 

smtp.login(username, password) 

smtp.sendmail(sender, receiver, msg.as_string()) 

smtp.quit() 


函数 SendContent 主 要 的 作用 十 抓 取 网 页 中 国定 的 内 容 ， 然 后 将 其 
发 送 给 用 户 。 代 码 本 吴 并 不 复杂 ， 但 足以 说 明 一 些 问题 。 读 者 可 以 先 
思考 一 下 : 到 底 有 什么 不 是 之 处 ? 能 否 进一步 改进 ? 怎样 才能 做 到 一 
目 了 然 呢 ? 一 般 来 说 函数 设计 有 以 下 基本 原则 可 以 参考 : 


原则 1 ， 数 设计 要 尽量 短小 ， 舱 套 层 次 不 宜 过 深 。 所 谓 短小 ， 
束 古 跟前 面 所 提 到 的 一 样 尽量 避 人 免 过 长 函数 ， 因 为 这 样 不 需要 上 下 拉 
动 滚动 条 束 能 获得 整体 感 观 ， 而 不 是 来 回 翻动 屏幕 去 寻找 某 个 变量 或 


者 某 条 人 逻辑 判断 等 。 范 数 中 需要 用 到 if 、elif 、while、for 等 循环 语句 的 
地 方 ， 尺 量 不 要 拨 套 过 深 ， 最 好 能 控制 在 3 层 以 内 。 相 信 很 多 人 有 过 这 
样 的 经 历 ， 为 了 和 弄 清 楚 哪 段 代码 属于 内 部 租 套 ， 哪 段 属于 中 间 层 次 的 
舱 套 ， 哪 段 属 于 更 外 一 层 的 藤 确 所 花费 的 时 间 比 读 代码 细节 所 用 时 间 


原则 2 ”函数 申明 应 该 做 到 合理 、 简 单 、 易 于 使 用 。 除 了 函数 名 
能 够 正确 反映 其 大 体 功 能 外 ， 参 数 的 设计 也 应 该 简洁 明了 ， 参 数 个 数 
不 宜 太 多 。 参 数 太 多 读 来 的 束 端 是 : 调用 者 需要 花费 更 多 的 时 间 去 理 
解 每 个 参数 的 意思 ， 测 试 人 员 需 要 人 花费 更 多 的 精力 来 设计 测试 用 例 ， 
以 确保 参数 的 组 合 能 够 有 合理 的 输出 ， 这 使 覆 兰 测 弃 的 难度 大 大 增 
加 。 因 此 函数 参数 设计 最 好 经 过 深思 敦 虑 。 


原则 3 ”函数 参数 设计 应 该 考虑 癌 下 兼容 。 实 际 工 作 中 我 们 可 能 
面临 这 样 的 情况 ， 随 着 需求 的 变更 和 版 本 的 升级 ， 在 前 一 个 版 本 中 设 
计 的 函数 可 能 需要 进行 一 定 的 修改 才能 满足 这 个 版 本 的 要 求 。 因 此 在 
设计 过 程 中 除了 着 有 眼 当 前 的 需求 还 得 考虑 同 下 兼容 。 如 以 下 示例 : 


>>> def readfile(filename): 
GD 函数 实现 的 第 一 版 本 


print "file read completed" 


>>> readfile("test,txt") 

file read completed 

>>> 

>>> import logging 

>>> 

>>> def readfile(filename,1logger): 

@ 画 数 实 现 的 第 二 版 本 

Nn print "file read completed" 

>>> readfile("test.txt") 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 

TypeError: readfile() takes exactly 2 arguments (1 given) 


上 面 的 代码 是 相同 功能 的 函数 不 同 版 本 的 实现 ， 唯 一 不 同 的 是 在 
更 高 级 的 版 本 中 为 了 便于 内 部 维护 加 入 了 日 志 处 理 ， 但 这 样 的 变动 却 


导致 程序 中 函数 调用 的 接口 发 生 了 改变 。 这 并 不 是 最 佳 设 计 ， 更 好 的 
方法 是 通过 加 入 殉 认 参数 来 避免 这 种 退化 ， 做 到 加 下 兼容 。 上 例 可 以 
将 第 一 行 代码 修改 为 : 


def readfile(filename,1logger=logger.info): 


原则 4 “一 个 函数 只 做 一 件 事 ， 尽 量 保证 函数 语句 粒度 的 一 至 
性 。 如 本 市 开头 所 示 代 码 中 整 有 3 个 不 同 的 任务 ， 获 取 网 页 内 容 、 查 找 
指定 网 页 内 容 、 发 送 邮 件 。 要 保证 一 个 函数 只 做 一 件 事 ， 就 要 尽量 保 
证 抽象 层级 的 一 致 性 ， 所 有 的 语句 尽量 在 一 个 粒度 上 。 如 上 例 既 有 
http.getfileO 这 样 较 高 层级 抽象 的 语句 ， 也 有 细 粒 度 的 字符 处 理 语句 。 
同时 在 一 个 函数 中 处 理 多 件 事情 也 不 利于 代码 的 重用 ， 在 上 例 中 ， 如 
果 程 序 中 还 有 类 似 发 送 邮 件 的 需求 ， 必 然 造 成 代码 的 见 余 。 


最 后 ， 根 据 以 上 几 点 原则 ， 上 面 对 本 节 最 开始 处 的 代码 进行 修 
改 ， 来 看 看 修改 后 的 代码 是 不 是 可 读 性 要 好 一 些 。 


def GetContent(ServerAdr,PagePath): 
http = httplib.HTTP(ServerAdr) 
http.putrequest('GET', PagePath) 
http.putheader('Accept', 'text/html') 
http.putheader('Accept', 'text/plain') 
http.endheaders() 
httpcode, httpmsg, headers = http.getreply() 
if httpcode != 200: 

raise "Could not get document: Check URL and Path." 

doc = http.getfile() 
data = doc.read() # read file 
doc.close() 
return data 

def ExtractData(inputstring, start_line, end_line): 


lstr=inputstring.splitlines() #Ssplit 
j=0 #set counter to 
zero 
for i in lstr: 
j=j+1 
If i.strip() == start_ line: slice_start=] #find slice start 
elif i,.strip() == end_ line: slice end=]j #find slice end 
return lstr[slice_start:slice_end] #return slice 
def SendEmail(sender,receiver,smtpserver,username,password, content ) : 
subject = "Contented get from the web" 


msg = MIMEText(content, 'plain','utf-8') 
msg['Subject'] = Header(subject, 'utf-8') 
smtp = smtplib.SMTP() 


smtp.connect(smtpserver) 

smtp.login(username, password) 
smtp.sendmail(sender, receiver, msg.as_string()) 
smtp.quit() 


Python 中 国 数 设计 的 好 习惯 还 包括 : 不 要 在 函数 中 定义 可 变 对 象 
作为 默认 值 ， 使 用 异 滑 蔡 换 返回 错误 ， 保 证 通过 单元 测试 等 。 


建议 7: 将 音量 集中 到 一 个 文件 


Python 中 存在 常量 吗 ? 相信 很 多 人 的 答案 是 否定 的 。 实 际 上 
Python 的 内 建 命名 空间 是 文 持 一 小 部 分 常量 的 ， 如 我 们 熟悉 的 True、 
False、None 等 ， 只 是 Python 没有 提供 定义 常量 的 直接 方式 而 已 。 那 
么 ， 在 Python 中 应 该 如 何 使 用 常量 呢 ? 一 般 来 说 有 以 下 两 种 方式 : 


通过 命名 风格 来 提醒 使 用 者 该 变量 代表 的 意义 为 常量 ， 如 常量 名 
所 有 字母 大 写 ， 用 下 划 线 连接 各 个 单词 ， 如 MAX_OVERFLOW、 
TOTAL。 然 而 这 种 方式 并 没有 实现 真正 的 常量 ， 其 对 应 的 值 仍然 可 以 
改变 ， 这 只 是 一 种 约定 俗 成 的 风格 。 


:通过 目 定义 的 类 实现 常量 功能 。 这 要 求 符合 “命名 全 部 为 大 
写 ” 和 * 值 一 旦 绑 定 便 不 可 再 修改 "这 两 个 条 件 。 下 面 是 一 种 较为 滑 见 的 
解决 方法 ， 它 通过 对 常量 对 应 的 值 进行 修改 时 或 者 命名 不 符合 规范 时 
抛 出 异常 来 满足 以 上 第 量 的 两 个 条 件 。 


class _const: 
class ConstError(TypeError): pass 
class ConstCaseError(ConstError): pass 
def _ setattr__(self, name, value): 
If self._ dict .has_key(name): 
raise self.ConstError, "Can't change const.%s" % name 
If not name.isupper(): 
raise self.ConstCaseError, \ 
"const name "%s" is not all uppercase' % name 
self,_ dict [name] = value 
import sys 
sys.modules[ name 1]=_const() 


如 果 上 面 的 代码 对 应 的 模块 名 为 const， 使 用 的 时 候 只 需要 import 
const， 便 可 以 直接 定义 利 量 了 ， 如 以 下 代码 : 


Import const 
const.COMPANY = "IBM" 


上 面 的 代码 中 第 量 一 旦 赋值 便 不 可 再 更 改 ， 因 此 const.COMPANY 
= "SAP" 会 抛 出 const.ConstError: 异 常 ， 而 常量 名 称 如 果 小 写 ， 如 
const.name = "Python"， 也 会 抛 出 const.ConstCaseError 寞 常 。 


无 论 采 用 哪 一 种 方式 来 实现 常量 ， 都 提倡 将 常量 集中 到 一 个 文件 
中 ， 因 为 这 样 有 利于 维护 ， 一 旦 需要 修改 常量 的 值 ， 可 以 集中 统一 进 
行 而 不 是 逐个 文件 去 检查 。 采 用 第 二 种 方式 实现 的 常量 可 以 这 么 做 : 
将 存放 常量 的 文件 命名 为 constant.py， 并 在 其 中 定义 一 系列 常量 。 


class _const: 
class ConstError(TypeError): pass 
class ConstCaseError(ConstError): pass 
def _ setattr_ (self, name, value): 
If self._ dict .has_ key(name): 
raise self.ConstError, "Can't change const.%s" % name 
If not name.isupper(): 
raise self.ConstCaseError, \ 
"const name "%s" is not all uppercase' % name 
Self, dict [name] = value 
import sys 
sys.modules[__name __]=_const() 
import const 
const.MY_CONSTANT = 1 
const.MY_SECOND_CONSTANT = 2 
const ,MY_THIRD_CONSTANT 'a! 
const ,MY_FORTH_CONSTANT 'b! 


当 在 其 他 模块 中 引用 这 些 常 量 时 ， 按 照 如 下 方式 进行 即 可 : 


from constant import const 

print const .MY_SECOND_CONSTANT 
print const,MY_THIRD_CONSTANT*2 
print const ,MY_FORTH_CONSTANT+ '5 


第 2 划 ”编程 惯用 法 


编程 语言 通常 都 有 其 惯用 法 ， 掌 握 这 些 惯用 法 能 够 帮助 我 们 写 出 
更 为 专业 和 精简 的 程序 ， 所 以 说 ， 掌 握 这 些 惯 用 法 古 非 常 必 要 的 。 本 
章 主要 讨论 Python 中 一 些 闻 见 的 编程 惯用 法 以 及 其 所 涉及 的 一 些 编程 


思想 * 


建议 8: 利用 assert 语 句 来 发 现 问 题 


断言 (assert) 在 很 多 语言 中 都 存在 ， 它 主要 为 调试 程序 服务 ， 能 
够 快速 方便 地 检查 程序 的 异常 或 者 发 现 不 恰当 的 输入 等 ， 可 防止 意 想 
不 到 的 情况 出 现 。Python 目 1.5 版 本 开始 引入 断言 语句 ， 其 基本 语法 如 
下 


assert expression1 ["," expression2] 


其 中 计算 expression 1 的 值 会 返回 True 或 者 False， 当 值 为 False 的 时 
候 会 引发 AssertionError， 而 expression 2 是 可 选 的 ， 常 用 来 传递 具体 的 


异 前 信息 。 


来 看 一 个 简单 的 使 用 例子 : 


>>> x =1 

>>> y =2 

>>> assert x == y,"not equals" 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 

AssertionError: not equals 

>>> 


在 执行 过 程 中 它 实际 相当 于 如 下 代码 : 


>>> x =1 

>>> y =2 

>>> if _ debug _ and not x == y: 

有 raise AssertionError("not equals") 


Traceback (most recent call last): 
File "<stdin>", line 2, in <module> 

AssertionError: not equals 

>>> 


对 Python 中 使 用 断言 需要 说 明 如 下 : 


1) debug_ 的 值 默 认 设置 为 True， 且 是 只 读 的 ， 在 Python2.7 中 
还 无 法 修改 该 值 。 


2) 断言 是 有 代价 的 ， 它 会 对 性 能 产生 一 定 的 影响 ， 对 于 编译 型 的 
语言 ， 如 C/C++， 这 也 许 并 不 那么 重要 ， 因 为 断言 只 在 调试 模式 下 局 
用 。 但 Python 并 没有 严格 定义 调试 和 发 布 模式 之 间 的 区 别 ， 通 常 禁 
盯 言 的 方法 是 在 运行 脚本 的 时 候 加 上 -O 标 志 ， 这 种 方式 市 来 的 影响 是 
它 并 不 优化 字 市 码 ， 而 十 忽 上 略 与 断言 相关 的 语句 。 如 : 


def foo(x): 


运行 python asserttest.py 如 下 : 


Traceback (most recent call last): 
File "asserttest.py", line 4, in <module> 
foo(0) 
File "asserttest.py", line 2, in foo 
assert x 
AssertionError 


加 上 -O 的 参数 : python -O asserttest.py 便 可 以 禁用 断言 。 


断言 实际 是 被 设计 用 来 捕获 用 户 所 定义 的 约束 的 ， 而 不 征用 来 捕 
获 程序 本 身 错 误 的 ， 因 此 使 用 断言 需要 注意 以 下 几 点 : 


1) 不 要 滥用 ， 这 是 使 用 断言 最 基本 的 原则 。 若 由 于 断言 引发 了 腊 
常 ， 通 常 代表 程序 中 存在 bug。 因 此 断言 应 该 使 用 在 正常 逻辑 不 可 到 达 
的 地 方 或 正常 情况 下 总 是 为 真 的 场合 。 


2) 如 果 Python 本 身 的 异常 能 够 处 理 就 不 要 再 使 用 断言 。 如 对 于 类 
似 于 数组 越界 、 类 型 不 匹配 、 除 数 为 0 之 类 的 错误 ， 不 建议 使 用 断言 来 


进行 处 理 。 下 面 的 例子 中 使 用 断言 束 显 得 多 余 ， 因 为 如 采 传 入 的 参数 
一 个 为 字符 串 ， 男 一 个 为 数 子 或 者 列表 ， 本 里 就 会 抛 出 TypeError 。 


>>> def stradd(x,y): 

ei assert isinstance(x,basestring) 
assert isinstance(y,basestring) 
return x+y 


3) 不 要 使 用 断言 来 检查 用 户 的 输入 。 如 对 于 一 个 数字 类 型 ， 如 果 
根据 用 户 的 设计 该 值 的 范围 应 该 是 2 一 10， 较 好 的 做 法 是 使 用 条 件 判 
断 ， 并 在 不 符合 条 件 的 时 候 输出 错误 提示 信息 。 


4) 在 函数 调用 后 ， 当 需要 确认 返回 值 是 否 合理 时 可 以 使 用 断言 。 


5) 当 条 件 是 业务 逻辑 继续 下 去 的 先决 条 件 时 可 以 使 用 断言 。 如 
list1 和 其 副本 list2， 业 务 继续 下 去 的 条 件 是 这 两 个 list 必 须 是 一 样 的 ， 
但 由 于 某 些 不 可 控 因 素 ， 如 使 用 了 涛 找 贝 而 list1 中 舍 有 可 变 对 象 等 ， 
忠 可 以 使 用 断言 来 判断 这 两 者 的 关系， 如果 不 相等 ， 则 继续 运行 后 面 
的 程序 意义 不 大 。 


建议 9: 数据 交换 值 的 时 候 不 推荐 使 用 中 
间 变 量 
交换 两 个 变量 的 值 ， 大 家 熟悉 的 代码 如 下 ， 


>>> temp = X 
XN 
nn y = temp 


实际 上 ， 在 Python 中 还 有 更 简单 、 更 Pythonic 的 实现 方式 ， 代 码 如 
下 : 


>>> X,y = Yy,x 


上 上面 的 实现 方式 不 需要 借助 任何 中 间 变 量 并 且 能 够 获取 更 好 的 性 
能 。 我 们 来 简单 测试 一 下 。 


>>> from timeit import Timer 

>>> Timer('temp = x;x = y;y = temp', 'x=2;y =3').timeit() 
0.10689428530212189 
>>> Timer( 'X， 


y = y,xX','x=2;y=3').timeit() 
0.08492583713832502 


从 测试 结果 可 以 看 出 ， 第 二 种 方式 耗费 的 时 间 更 少 ， 并 且 由 于 不 
需要 借助 中 间 变 量 ， 代 码 更 为 简洁 ， 是 值得 推荐 的 一 种 方式 。 那 么 ， 
为 什么 第 二 种 方式 可 以 做 到 更 优 昵 ? 这 要 从 Python 表达 式 计算 的 顺序 
说 起 。 一 般 情 况 下 Python 表达 式 的 计算 顺序 是 从 左 到 右 ， 但 遇 到 表达 
式 赋 值 的 时 候 表 达 式 右边 的 操作 数 先 于 左边 的 操作 数 计算 ， 因 此 表达 
式 expr3，expr4= expr1，expr2 的 计算 顺序 是 exprl1，expr2 -~ expr3， 
expr4。 因 此 对 于 表达 式 x，y=y，x， 其 在 内 存 中 执行 的 顺序 如 下 : 


1) 先 计 算 右 边 的 表达 式 y，x， 因 此 先 在 内 存 中 创建 元 组 (y， 
x) ， 其 标示 符 和 值 分 别 为 y、x 及 其 对 应 的 值 ， 其 中 y 和 x 是 在 初始 化 时 
已 经 存在 于 内 存 中 的 对 象 。 


2) 计算 表达 式 左 边 的 值 并 进行 赋值 ， 元 组 被 依次 分 配给 左边 的 标 
示 符 ， 通 过 解压 缩 (unpacking) ， 元 组 第 一 标识 符 (为 y) 分 配给 左 
边 第 一 个 元 素 (此 时 为 x) ， 元 组 第 二 个 标识 符 (为 x) 分 配给 第 二 个 
元 素 (此 时 为 y) ， 从 而 达到 x、y 值 交换 的 目的 。 


更 深入 一 点 我 们 从 Python 生 成 的 了 市 码 来 分 析 。Python 的 字 市 码 
征 一 种 类 似 汇 编 指令 的 中 间 语 言 ， 但 是 一 个 字 蔬 码 指令 并 不 是 对 应 一 
个 机 器 指令 。 我 们 通过 以 下 dis 模 块 的 来 进行 分 析 : 


>>> import dis 
>>> def swap1(): 


x =2 
y =3 
X, y= Yy, x 
>>> def swap2(): 
x =2 
y =3 
temp = x 
X = y 
y = temp 
>>> print 'Swap1(): 
Swap1( ) : 
>>> dis.dis(swap1) 
2 © LOAD_CONST 1 (2) 
3 STORE_FAST 9 (x) 
3 6 LOAD_CONST 2 (3) 
9 STORE_FAST 1 (y) 
4 12 LOAD_FAST 1 (y) 
15 LOAD_FAST 9 (x) 
18 ROT_TWO 
19 STORE_FAST 9 (x) 
22 STORE_FAST 1 (y) 
25 LOAD_CONST 9 (None) 
28 RETURN_VALUE 
>>> print 'swap2():" 
swap2(): 
>>> dis.dis(swap2) 
2 © LOAD_CONST 1 (2) 
3 STORE_FAST 9 (x) 
3 6 LOAD_CONST 2 (3) 
9 STORE_FAST 1 (y) 
4 12 LOAD_FAST 0 (x) 
15 STORE_FAST 2 (temp) 
5 18 LOAD_FAST 1 (y) 


21 STORE_FAST 

6 24 LOAD_FAST 
27 STORE_FAST 
30 LOAD_CONST 
33 RETURN_VALUE 


通过 字 市 码 可 以 看 出 ， 区 别 主要 集中 在 swap1 范 数 的 第 4 行 和 
swap2 函 数 的 第 4~6 行 代码 ， 其 中 swap1 的 第 4 行 代码 对 应 的 字 节 码 中 
有 2 个 LOAD_FAST 指 令 、2 个 STORE_FAST 指 令 和 1 个 ROT_TWO 指 
令 ， 而 swap2 琅 数 对 应 的 第 4 一 6 行 代 码 中 共生 成 了 3 个 LOAD_FAST 指 
令 和 3 个 STORE_FAST 指 令 。 而 指令 ROT_TWO 的 主要 作用 是 交换 两 个 
栈 的 最 顶层 元 素 ， 它 比 执行 一 个 LOAD_FAST+STORE_FAST 指 令 更 
快 6 


建议 10: 充分 利用 Lazy evaluation 的 特性 


Lazy evaluation 常 被 译 为 “延迟 计算 ”或 “惰性 计算 ”， 指 的 是 仅仅 在 
真正 需要 执行 的 时 候 才 计算 表达 式 的 值 。 充 分 利用 Lazy evaluation 的 特 
性 带 来 的 好 处 主要 体现 在 以 下 两 个 方面 : 


1) 避免 不 必要 的 计算 ， 带 来 性 能 上 的 提升 。 对 于 Python 中 的 条 
件 表达 式 if x and y， 在 x 为 false 的 情况 下 y 表 达 式 的 值 将 不 再 计算 。 而 
对 于 fx ory， 当 x 的 值 为 true 的 时 候 将 直接 返回 ， 不 再 计算 y 的 值 。 因 
此 编程 中 应 该 充分 利用 该 特性 。 下 面 的 例子 用 于 判断 一 个 单词 是 不 是 
指定 的 缩写 形式 。 


from time import time 
t = time() 


abbreviations = ['cf. e.g.', 'ex.', 'etc.', 'fig.', 'i.e.', 'Mr.', 'Vvs.'] 
for i in xrange (1696969]: 
for w in ('M ,， 'Hat', 'is', 'chasing', 'the', 'black', 'cat', '.'): 
if w in abbreviations; 
#if w[-1] == '.' and w in abbreviations: 


print "total run time:" 
print time()-t 


如 果 使 用 注释 行 代替 第 一 个 让 ， 运 行 的 时 间 大 约会 节省 10%。 因 此 
在 编程 过 程 中 ， 如 果 对 于 or 条 件 表达 式 应 该 将 值 为 真 可 能 性 较 高 的 变 
量 写 在 or 的 前 面 ， 而 and 则 应 该 推 后 。 


2) 市 省 空间 ， 使 得 无 限 循 环 的 数据 结构 成 为 可 能 。Python 中 最 
典型 的 使 用 延 公 计 算 的 例子 就 十 生成 侨 表 达 式 了 ， 它 仅 在 每 次 需要 计 
算 的 时 候 才 通过 yield 产 生 所 需要 的 元 素 。 斐 波 那 契 数列 在 Python 中 实 
现 起 来 就 显得 相当 简单 ， 而 while True 也 不 会 导致 其 他 语言 中 所 遇 到 的 
无 限 循环 的 问题 。 


def fib(): 
a, b= 0, 
while True: 
a, b = b, a+b 
>>> from itertools import islice 
>>> print list(islice(fib(), 5)) 
[9, 1, 1, 2, 3] 


Lazy evaluation 并 不 是 一 个 很 大 、 很 新 鲜 的 话题 ， 但 古人 云 “ 不 积 
足 步 无 以 至 千里 ”>， 小 小 的 改进 便 能 写 出 更 为 优化 的 代码 ， 何 乐 而 不 为 
呢 ? 


建议 11: 理解 枚 举人 蔡 代 实现 的 缺陷 


天 于 枚 举 最 经 典 的 例子 大 概 非 季 世 和 星期 莫 属 了 ， 它 能 够 以 更 接 
近 目 然 语言 的 方式 来 表达 数据 ， 使 得 程序 的 可 读 性 和 可 维护 性 大 大 提 
高 。 然 而 ， 很 不 仔 ， 也 许 你 习惯 了 其 他 语言 中 的 枚 举 类 型 ， 但 在 
Python3.4 以 前 却 并 不 提供 。 关 于 要 不 要 加 入 枚 举 类 型 的 问题 束 引 起 了 
不 少 讨论 ， 在 PEP354 中 曾 提出 增加 枚 举 的 建议 ， 但 被 拒绝 。 于 是 人 们 
充分 利用 Python 的 动态 性 这 个 特征 ， 想 出 了 枚 举 的 各 种 奉 代 实现 方 
3 


1) 使 用 类 属性 。 


>>> class Seasons: 
Spring = 0 
Summer = 1 
Autumn = 2 
Winter = 3 


>>> print Seasons.Spring 


上 面 的 例子 可 以 直接 简化 为 : 


>>> class Seasons: 
Spring,Summer,Autumn,Winter=range(4) 


2) 仿 助 范 数 。 


>>> def enum(*posarg, **keysarg): 

ey return type("Enum", (object,), dict(zip(posarg, xrange(len(posarg))), ** 
keysarg)) 

>>> Seasons = enum("Spring", "Summer","Autumn",Winter=1) 

>>> Seasons.Spring 


3) 使 用 collections.namedtuple 。 


>>> Seasons = namedtuple('Seasons','Spring Summer Autumn Winter')._ make(range(4)) 
>>> print Seasons.Spring 
0 


Python 中 枚 举 的 替代 实现 方式 远 不 止 上 壕 这 些 ， 在 此 就 不 一 一 列 
举 了 。 那 么 ， 既 然 枚 举 在 Python 中 有 蔡 代 的 实现 方式 ， 为 什么 人 们 还 
要 执着 地 提出 各 自 建议 要 求 语言 实现 枚 举 呢 ? 显然 ， 这 些 替 代 实现 有 
其 不 合理 的 地 方 。 


:允许 枚 举 值 重 复 。 我 们 以 collections.namedtuple 为 例 ， 下 面 的 例子 
中 枚 举 值 Spring 与 Autumn 相 等 ， 但 却 不 会 提示 任何 错误 。 


>>> Seasons._replace(Spring =2) 

Seasons(Spring=2, Summter=1, Autumn=2, Winter=3) #Spring 
和 Autumn 

的 值 相等 ， 都 为 2 


文 持 无 意义 的 操作 。 


>>> Seasons .Summer+Seasons .Autumn == Seasons ,Winter 
True #Seasons .Summer+Seasons .Autumn 


相 加 无 任何 实际 意义 


实际 上 Python2.7 以 后 的 版 本 还 有 另外 一 种 奉 代 选择 一 一 使 用 第 三 
方 模块 flufl.enum， 它 包含 两 种 枚 举 类 : 一 种 是 Enum， 只 要 保证 枚 举 
值 唯 一 即 可 ， 对 值 的 类 型 没 限制 ， 还 有 一 种 是 IntEnum， 其 枚 举 值 为 
int 型 。 
>>> from flufl.enum import Enum 
>>> class Seasons(Enum): # 


继承 自 Enum 
定义 枚 举 


Spring ="Spring" 
Summer 2 
Autumn 


3 


Winter = 4 


>>> Seasons = Enum('Seasons', 'Spring Sumter Autumn Winter') 


flufl.enum 提 供 了 _ members_ 属 性， 可 以 对 枚 举 名 称 进 行 迭 代 。 


>>> for member In Seasons. members : 
i print member 

Spring 

Summer 


Autumn 
Winter 


可 以 直接 使 用 value 属 性 获取 枚 举 元 素 的 值 ， 如 : 


>>> print Seasons.Summer .Value 
2 


fluflLenum 不 文 持 枚 举 元 素 的 比较 。 


>>> Seasons ,Summer <Seasons.Autumn #flufl.enum 
不 支持 无 意义 的 操作 
Traceback (most recent call last): 


raise NotImplementedError 
NotIimplementedError 


更 多 天 于 flufl.enum 的 使 用 可 以 参考 网 页 
http://Pythonhosted.org/flufl.enum/docs/using.html 的 内 容 。 


值得 一 提 的 是 ，Python3.4 中 根据 PEP435 的 建议 终于 加 入 了 枚 举 
Enum， 其 实现 主要 参考 实现 fuflenum， 但 两 者 之 间 还 是 存在 一 些 差 
别 ， 如 fuflLenum 人 允许 枚 举 继承 ， 而 Enum 仅 在 父 类 没有 任何 枚 举 成 员 
的 时 候 才 允许 继承 等 ， 读 者 可 以 仔细 阅读 PEP435 了 解 更 多 详情 。 另 
外 ， 如 采 要 在 Python3.4 之 前 的 版 本 中 使 用 枚 举 Enum， 可 以 安装 Enum 


的 向 后 兼容 包 enum34， 下 载 地 址 为 
https://pypi.Python.org/pypienum34。 


建议 12: 不 推荐 使 用 type 来 进行 类 型 检查 


作为 动态 性 的 强 类 型 脚本 语言 ，Python 中 的 变量 在 定义 的 时 候 并 
不 会 指明 具体 类 型 ，Python 解 释 器 会 在 运行 时 目 动 进行 类 型 检查 并 根 
据 需 要 进行 隐 式 类 型 转换 。 按 照 Python 的 理念 ， 为 了 充分 利用 其 动态 
性 的 特征 是 不 推荐 进行 类 型 检查 的 。 如 下 面 的 函数 add0， 在 无 需 对 参 
数 进行 任何 约束 的 情况 下 便 可 以 轻松 地 实现 字符 串 的 连接 、 数 字 的 加 
法 、 列 表 的 合并 等 多 种 功能 ， 甚 至 处 理 复 数 都 非常 有 灵活。 解释 大 能 够 
根据 变量 类 型 的 不 同调 用 合适 的 内 部 方法 进行 处 理 ， 而 当 a、b 类 型 不 
同 而 两 者 之 间 义 不 能 进行 隐 式 类 型 转换 时 便 抛 出 TypeError 异 第 。 


def add(a, b): 
return a+b 
print add(1,2j) 
复数 相 加 


print add('a','b') 
人) 字符 串 连 接 

print add(1,2) 
(四 台 妆 


print add(1.0,2.3) 

(9 浮 点 数 处 理 

print add([1,2],[2,3]) 
( 引 处 理 列表 


print add(1,'a') 
6) 不 同类 型 


输出 如 下 : 


(1+2j) 
ab 
3 
3.3 
[1, 2, 2, 3] 
Traceback (most recent call last): 
File "tests.py", line 9, in <module> 
print add(1,'a') 
File "tests.py", line 2, in add 
return a+b 
TypeError: unsupported operand type(s) for +: 'int' and 'str' 


不 刻意 进行 类 型 检查 ， 而 是 在 出 错 的 情况 下 通过 抛 出 异常 来 进行 
处 理 ， 这 是 较为 常见 的 方式 。 但 实际 应 用 中 为 了 提高 程序 的 健壮 性 ， 
仍然 会 面临 需要 进行 类 型 检查 的 情景 。 那 么 使 用 什么 方法 呢 ? 很 容易 
想到 ， 使 用 type()。 


内 建 男 数 type(object) 用 于 返回 当前 对 象 的 类 型 ， 如 type(1) 返 回 
<type 'int>。 因 此 可 以 通过 与 Python 目 禹 模块 types 中 所 定义 的 名 称 进行 
比较 ， 根 据 其 返回 值 确定 变量 类 型 是 否 符合 要 求 。 例 如 判断 一 个 变量 a 
是 不 是 list 类 型 可 以 使 用 以 下 代码 : 


if type(a) is types.ListType: 


所 有 基本 类 型 对 应 的 名 称 都 可 以 在 types 模 块 中 找到 ， 如 
types.BooleanType 、 types.IntType 、 types.StringType 、 types.DictType 
等 。 然 而 使 用 type() 函 数 并 不 是 整 意 味 着 可 以 高 枕 无 忱 了 ， 主 张 “不 推 
蓓 使 用 type 来 进行 变量 类 型 检查 ”是 有 一 定 的 毕 由 的 。 来 看 几 个 例子 。 


示例 一 : 下 例 中 用 户 类 UserInt 继 承 int 类 实现 定制 化 ， 它 不 文 持 操 
作 符 +=。 具 体 代码 如 下 : 


import types 
class UserInt(int) : #int 
为 UserInt 


的 基 


def _ init (self, val=0) : 
self, val = int(val) 
def add (self, val) : # 
实现 整数 的 加 法 
if isinstance(val,UserInt): 
return UserInt(self. val + val._val) 
return self. val + val 
def _ iadd (self, val) : 
@UserInt 
不 支持 += 


操作 
raise NotImplementedError("not support operation") 
def _ str_(self) : 
return str(self._val) 
def _ repr__(self) : 
return 'Integer(%s)' %self._val 
n = UserInt() 


print n 

m = UserInt(2) 

print m 

print n+m 

print type(n) is types.IntType 
人 ) 使 e 


人 
进行 类 型 判断 


这 


程序 输出 如 下 : 


DD Do 


False 


上 例 标注 人 处 输出 False， 这 说 明 type0 函 数 认为 n 并 不 是 int 类 型 ， 
但 UserInt 继 承 目 int， 显 然 这 种 判断 不 合理 。 由 此 可 见 基于 内 建 类 型 扩 
展 的 用 户 目 定 义 类 型 ，type 画 数 并 不 能 准确 返回 结果 。 


示例 二 : 在 古典 类 中 ， 所 有 类 的 实例 的 type 值 都 相等 。 


>>> class A: 
， pass 
>>> a = A() 
>>> class B: 


， pass 
>>> b = B() 
>>> type(a) == type(b) # 
判断 两 者 类 型 是 否 相等 
True 


在 古典 类 中 ， 任 意 类 的 实例 的 type0 返 回 结 采 都 是 <type 
"instance'>。 这 种 情况 下 使 用 type() 函 数 来 确定 两 个 变量 类 型 是 否 相 同 
显然 结 采 会 与 我 们 所 理解 的 大 相 径 星 。 


因此 对 于 内 建 的 基本 类 型 来 说 ， 也 许 使 用 typeO 进 行 类 型 检查 问题 
不 大 ， 但 在 某 些 特殊 场合 type0 方 法 并 不 可 靠 。 那 么 客 竟 应 怎样 来 约束 
用 户 的 输入 类 型 从 而 使 之 与 我 们 期 望 的 类 型 一 致 昵 ? 答案 是 : 如 采 类 


型 有 对 应 的 工厂 函数 ， 可 以 使 用 工厂 函数 对 类 型 做 相应 转换 ， 如 
list(listing)、str(name) 等 ， 否 则 可 以 使 用 isinstance() 芳 数 来 检测 ， 其 原 
型 如 下 : 


isinstance(object, classinfo) 


其 中 ，classinfo 可 以 为 直接 或 间接 类 名 、 基 本 类 型 名 称 或 者 由 它 
们 组 成 的 元 组 ， 该 函数 在 classinfo 参 数 钳 误 的 情况 下 会 抛 出 TypeError 


异常 。 
isinstance 基 本 用 法 举例 如 下 : 


>>> isinstance(2,float) 

False 

>>> isinstance("a", (str,unicode)) 

True 

>>> isinstance( (2, 3), (str,1ist, tuple)) 
dy) 文 持 多 种 类 型 列表 


True 


此 示例 一 中 可 以 将 print type(n) is types.IntType 改 为 print 
isinstance(n,int)， 以 获取 正确 的 结 


建议 13， 尽 量 转换 为 浮 点 类 型 后 再 做 除法 


GPA (平均 成 绩 绩 点 ) 在 出 国 留学 或 者 奖学金 申请 中 都 占有 重要 
的 地 位 。GPA 算 法 有 多 种 形式 ， 其 中 标准 计算 方法 旦 将 大 学 成 绩 乘 以 
课程 学 分 并 求 和 再 乘 以 4， 再 除 以 总 学 分 与 100 之 积 ， 一 般 精 确 到 小 数 
点 后 两 位 。 假 如 学 生 A 的 各 门 课程 成 绩 如 下 : 


A 课 程 4 学 分 ， 成 绩 96 〈 等 级 A， 绩 点 4) ; B 课 程 3 学 分 ， 成 绩 85 
(等 级 B， 绩 点 3) 


C 课 程 5 学 分 ， 成 绩 98 (等 级 A， 绩 点 4) ; DD 课程 2 学 分 ， 成 绩 70 
(等 级 C， 绩 点 2) 


那么 该 学 生 的 GPA 是 多 少 呢 ? 很 容易 的 算术 问题 对 吧 ， 人 小 学 生 都 
会 ! 那么 你 算出 来 的 结果 是 多 少 ?” Python 计算 出 的 结果 又 是 多 少 呢 ? 


>>> gpa = ((4*96+3*85+5*98+2*70)*4)/((4+3+5+2)*100) 
>>> print gpa 
3 


上 面 的 结果 跟 你 计算 出 的 答案 一 致 吗 ? 显然 是 否定 的 ， 你 的 计算 
结果 为 3.62571428571， 即 使 四 舍 五 入 保留 小 数 点 后 两 位 也 应 该 是 
3.63。 如 果 有 所 大 学 规定 的 最 低 GPA 是 3.5 的 话 ， 用 Python 作 为 GPA 计 
算 工 具 的 话 可 就 实 实 在 在 会 误 人 前 程 了 。 问 题 出 现在 哪里 呢 ? 这 要 回 
到 Python 设计 之 初 。 


Python 在 最 初 的 设计 过 程 中 借鉴 了 C 语 言 的 一 些 规则 ， 比 如 选择 C 
的 long 类 型 作为 Python 的 整数 类 型 ，double 作 为 浮 点 类 型 等 。 同 时 标准 
的 算术 和 运算， 包括 除 法 ， 返 回 值 总 是 和 操作 数 类 型 相同 。 作 为 静态 类 


型 语言 ，C 语 言 中 这 一 规则 问题 不 大 ， 因 为 变量 都 会 预 完 申明 类 型 ， 

当 类 型 不 符 的 时 候 ， 编 译 器 也 会 尽 可 能 进行 强制 类 型 转换 ， 否 则 编译 
会 报错 。 但 Python 作为 一 门 高 级 动态 语言 并 没有 类 型 申明 这 一 说 ， 因 
此 在 上 面 的 例子 中 你 不 能 提前 申明 返回 的 计算 结果 为 浮 点 数 ， 当 除法 
运算 中 两 个 操作 数 都 为 整数 的 时 候 ， 其 返回 值 也 为 整数， 运算 结果 将 
直接 截断 ， 从 而 在 实际 应 用 中 造成 潜在 的 质 的 误差 。 


Python 中 除了 除法 运算 之 外 ， 整 效 和 浮 点 数 的 其 他 操作 行为 还 是 
一 致 的 ， 因 此 这 容易 让 人 产生 一 种 误解 ， 数 值 的 计算 与 具体 操作 数 的 
类 型 (整数 还 是 浮 点 数 ) 无 关 ， 但 事实 上 对 于 整数 除法 这 是 编程 过 程 
中 洪 在 的 一 个 危险 ， 因 为 当 你 编写 一 个 画 数 时 ， 即 使 你 布 望 调用 者 传 
入 的 是 浮 点 类 型 ， 但 如 有 果 不 在 丽 数 入 口 进 行 类 型 检查 或 者 转换 ， 允 无 
法 阻止 函数 调用 者 传递 整数 参数 ， 而 往往 这 种 类 型 的 错误 还 不 容易 发 
觉 。 因 此 推荐 的 做 法 之 一 是 当 涉及 除法 运算 的 时 候 尽量 先 将 操作 数 园 
换 为 浮 点 类 型 再 做 运算 。 


>>> gpa = float(((4*96+3*85+5*98+2*70)*4))/float(((4+3+5+2)*100)) 
>>> print gpa 
3.62571428571 


当然 随 着 Python 语 言 的 发 展 ， 对 整数 除法 问题 也 做 了 一 定 的 修 
正 ， 在 Python3 中 这 个 问题 已 经 不 存在 了 。Python3 之 前 的 版 本 可 以 通 
过 from future import division 机 制 使 整数 除法 不 再 截断 ， 这 样 即 使 
不 进行 浮 点 类 型 转换 ， 输 出 结果 也 是 正确 的 〈 请 读者 自行 试验 ) 。 


最 后 ， 还 需要 说 明 一 点 ， 上 例 中 是 使 用 浮 点 数 才 精 确 ， 但 下 列 场 
景 又 变 成 了 浮 点 数 可 能 是 不 准确 的 。 先 来 看 以 下 代码 : 


>>> i=1 

>>> while i!=1.5: 

和 i = i +0.1 
print i 


上 面 的 代码 输出 会 是 多 少 ? 正确 的 答案 是 这 段 代码 会 导致 无 限 循 
环 。 为 什么 呢 ? 因为 在 计算 机 的 世界 里 ， 浮 点 数 的 存储 规则 决定 了 不 
是 所 有 的 浮 点 数 都 能 准确 表示 ， 有 些 是 不 准确 的 ， 只 是 无 限 接近 。 如 
0.1 转 换 为 二 进 制 表示 形式 则 为 0.000110011001...... 后 面 1001 无 限 循 
环 。 在 内 存 中 根据 浮 点 数位 数 规定 ， 多 余部 分 直接 截断 ， 因 此 当 循 环 
到 第 5 次 的 时 候 i 的 实际 值 为 1.5000000000000004 (读者 可 以 逐步 调试 进 
行 验证 ) ， 则 条 件 表达 式 i !=1.5 显 然 为 True， 循 环 陷入 无 终止 状态 。 对 
于 浮 点 数 的 处 理 ， 要 记 住 其 运算 结果 可 能 并 不 是 完全 准确 的 。 如 果 计 
算 对 精度 要 求 较 高 ， 可 以 使 用 Decimal 来 进行 处 理 或 者 将 浮 点 数 尽量 扩 
大 为 整数 ， 计 算 完 毕 之 后 再 转换 回去 。 而 对 于 在 while 中 使 用 ii=1.5 这 
种 条 件 表达 式 更 是 要 避免 的 ， 浮 点 数 的 比较 同样 最 好 能 够 指明 精度 。 


建议 14: 警惕 eval0 的 安全 漏洞 


如 果 你 了 解 JavaScript 或 者 PHP 等 ， 那 么 你 一 定 对 evalO0 所 有 了 解 。 
如 有 果 你 并 没有 接触 过 也 没关系 ，eval(0) 函 数 的 使 用 非常 简单 。 


>>> eval("'A'+'B'") # 
字符 连接 
1 T 


AB 

>>> eval("1+2") # 
数字 相 加 

3 


>>> 


Python 中 eval0 函 数 将 字符 串 str 当 成 有 效 的 表达 式 来 求 值 并 返回 计 
算 结果 。 其 函数 声明 如 下 : 


eval(expression[, globals[, locals]]) 


其 中 ， 参 数 globals 为 字典 形式 ，locals 为 任何 映射 对 象 ， 它 们 分 别 
表示 全 局 和 局 部 命名 空间 。 如 有 果 传 入 globals 参 数 的 字典 中 缺少 
”builtins ”的 时 候 ， 当 前 的 全 局 命名 空间 将 作为 globals 参 数 输入 并 且 
在 表达 式 计算 之 前 被 解析 。locals 参 数 默认 与 globals 相 同 ， 如 果 两 者 都 
省 略 的 话 ， 表 达 式 将 在 eval0 调 用 的 环境 中 执行 。 


“eval is evil” (eval 是 收 恶 的 ) ， 这 是 一 句 广 为 人 知 的 对 eval 的 评 
价 ， 它 主要 针对 的 是 eval0 的 安全 性 。 那 么 eval 存 在 什么 样 的 安全 漏洞 
呢 ? 来 看 一 个 简单 的 例子 : 


import sys 
from math import * 
def ExpCalcBot(string): 


try: 
print 'Your answer is',eval(user_func) # 
计算 输入 的 值 
except NameError: 
print "The expression you enter is not valid" 
print 'Hi,I am ExpCalcBot. please input your experssion or enter e to end' 
inputstr ="" 
while 1: 
print "Please enter a number or operation. Enter c to complete. :'" 
inputstr = raw_input() 
If inputstr == str('e') : # 
到 输入 为 e 
的 时 候 退 出 


辣 
已: 


sys.exit() 

elif repr(inputstr) != repr("''): 
ExpCalcBot(inputstr) 
inputstr = "" 


上 面 这 段 代 码 的 主要 功能 是 : 根据 用 户 的 输入 ， 计 算 Python 表 达 
式 的 值 。 它 有 什么 问题 呢 ? 如 果 用 户 都 是 素质 良好 ， 没 有 不 民 目 的 的 
话 ， 那 么 这 段 程序 也 许可 以 满足 基本 需求 。 比 如 ， 输 入 1+sin(20) 会 输 
出 结果 1.91294525073。 但 如 果 它 是 一 个 Web 页 面 的 后 台 调 用 (当然 ， 
你 需要 做 一 定 的 修改 ) ， 由 于 网 络 环 境 下 运行 它 的 用 户 并 非 都 是 可 信 
任 的 ， 问 题 就 出 现 了 。 因 为 eval0 可 以 将 任何 字符 串 当做 表达 式 求 值 ， 
这 也 就 意味 着 有 空子 可 钻 。 上 面 的 例子 中 假设 用 户 输入 
”import ("os").system("dir")， 会 有 什么 样 的 输出 呢 ? 你 会 惊讶 地 发 现 
它 会 显示 当前 目录 下 的 所 有 文件 列表 ， 输 出 如 下 : 


C:\test>python tests.py 
Hi,I am ExpCalcBot. please input your experssion or enter e to end 
Please enter a number or operation. Enter c to complete,. : 
__import_ ("os").system("dir") 
Your answer is 
驱动 器 C 
中 的 卷 是 SYSTEM 
卷 的 序列 号 是 AOE9- 1A46 
C:\test 


科目 村 
2013/07/31 12:28 <DIR> 
2013/07/31 12:28 <DIR> 


2012/07/24 08:11 859, 919 2012-07-24-010.jpg 
2012/07/24 08:11 1,037,015 2012-07-24-011.jpg 
2012/07/24 08:19 1,242,667 2012-07-24-012.jpg 
2013/07/31 12:26 9 test.txt 
2013/07/31 12:27 503 tests.py 

5 
个 文件 3,140, 104 
字 芝 


2 
个 目录 422, 254,702, 592 
可 用 字 节 


0 
Please enter a _ number or operation. Enter c to complete,. : 


于 是 顿时 ， 有 人 的 “ 坏 心眼 ”来 了 ， 他 输入 了 如 下 字符 串 ， 可 翡 的 
事情 发 生 了 ， 当 前 目录 下 的 所 有 文件 都 被 删除 了 ， 包 括 test.py， 而 这 一 
切 没有 任何 提示 ， 悄 无 声息 。 


__import ("os"). system(! 'del * /Q") 
站 不 要 经 易 在 你 的 计算 机 上 尝 试 


Your answer is 0 


试想 ， 在 网 络 环境 下 这 是 不 是 很 危险 ? 也 许 你 会 辩护 ， 那 是 因为 
你 没有 在 globals 参 数 中 禁止 全 局 命名 空间 的 访问 。 好 ， 我 们 按照 你 说 
的 来 试验 一 下 : 将 函数 ExpCalcBot 修 改 一 下 ， 其 中 math_fun_list 限 定 为 
几 个 常用 的 数学 函数 。 修 改 后 的 函数 如 下 : 


def Ba 
tr 


‘math _fun_ list = = acos 2 a ， / 'Cos', 'e','l0g', "10og10'，'pI"， 
"pow 'sin', n'] 
math 0 dict” = = dict([ (ke a get(k)) for k in math_fun_list ]) 


形成 可 以 访问 的 夯 数 的 字 碳 
print 'Your answer is',eval(string,{" builtins ": None},math_fun_dict) 
except NameError : 
print "The expression you enter is not Valid'" 


再 次 运行 程序 (请 读者 自 和 
看 着 无 效 表达 式 ， 你 的 辩护 是 对 的 ， 这 确实 是 我 们 想 要 的 。 很 好 ， 
全 问题 不 再 是 个 问题 但 他 细 想 想 中 是 这 样 的 四 9 试 试 输入 以 下 学 
符 : 


[c for c in ()._ class . bases [0]. subclasses () if c._ name _ =='QUuitter'] 


[0] (90)() 


#()._class” . bases [0]. subclasses (用 来 显示 object 类 的 所 有 
子 类 。 类 Quitter 与 "quit" 功 能 绑 定 ， 因 此 上 面 的 输入 会 直接 导致 程序 退 


注 : 你 可 以 在 Python 的 安装 目录 下 的 Lib\site.py 中 找到 其 类 的 定 
义 。 读 者 也 可 以 目 行 在 Python 解释 器 中 输入 
print(0)._class ._bases_[0]._subclasses 0 看 看 输出 结果 是 什么 。 


因此 对 于 有 经 验 的 侵入 者 来 说 ， 他 可 能 会 有 一 系列 强大 的 手段 ， 
使 得 eval 可 以 解释 和 调用 这 些 方法 ， 从 而 市 来 更 大 的 破坏 。 此 外 ， 
eval() 汞 数 也 给 程序 的 调试 带 来 一 定 困难 ， 要 查看 eval() 里 面 表达 式 具体 
的 执行 过 程 很 难 。 因 此 在 实际 应 用 过 程 中 如 果 使 用 对 象 不 是 信任 源 ， 
应 该 尽量 避免 使 用 eval， 在 需要 使 用 eval 的 地 方 可 用 安全 性 更 好 的 
ast.literal_eval 替 代 。 literal_eval 函 数 具 体 详 情 可 以 参考 文档 
http://docs.python.org/2/library/ast.html#ast.literal_eval。 上 面 的 例子 请 读 
者 使 用 literal_eval 自 行 试验 ， 你 会 体会 得 更 加 深刻 。 


建议 15: 使 用 enumerate() 获 取 友 列 送 代 的 
索引 和 值 


基本 上 所 有 的 项 目 中 都 存在 对 序列 进行 迭代 并 获取 序列 中 的 元 素 
进行 处 理 的 场景 。 这 是 一 个 非常 普通 而 且 简 单 的 需求 ， 相 信 很 多 人 一 
口气 能 写 出 N 种 实现 方法 。 举 例如 下 。 


方法 一 在 每 次 循环 中 对 索引 变量 进行 自 增 


Le 


i [a', 'b', Te"; 'd', 'e'] 

index=0 

for i In 1i: 
print "index:",index,"element:",i 
index+=1 


方法 二 ”使 用 range() 和 len() 方 法 结合 


了 ['a', "bs Ie™; "dd; 'e'] 
for i In range( len(11)): 
print "index:",i,"element:",1i[i] 


方法 三 ”使 用 while 循 环 ， 用 len0 获 取 循 环 次 数 。 


上 阳 亨 一 [a “5 I “全 'e'] 

index=0 

while index < len(1i): 
print "index:",index,"element:",1i[index] 
index+=1 


方法 四 “使 用 zip(0) 方 法 。 


li=['a', ,Cc', e'] 
for i, e in zrangel Lon (27)), ee 
print "index: "element: 


方法 五 ”使 用 enumerate() 获 取 序 列 迭 代 的 索引 和 值 。 


1i = ['a', "bs Le 'd', 'e'] 
for i,e in enumerate(1i): 
print "index:",i,"element:",e 


这 里 推荐 的 是 使 用 方法 五 ， 因 为 它 代码 清晰 人 简洁， 可 读 性 最 好 。 
函数 enumerate0 是 在 Python2.3 中 引入 的 ， 主 要 是 为 了 解决 在 循环 中 获 
取 索 引 以 及 对 应 值 的 问题 。 它 具有 一 定 的 惰性 〈lazy) ， 每 次 仅 在 需 
要 的 时 候 才 会 产生 一 个 (index,item) 对 。 其 函数 签名 如 下 : 


enumerate(sequence, start=0) 


其 中 ，sequence 可 以 为 序列 ， 如 list、 set 等 ， 也 可 以 为 一 个 iterato 
或 者 任何 可 以 迭代 的 对 象 ， 默 认 的 start 为 0， 函 数 返 回 本 质 上 为 一 个 迭 
代 器 ， 可 以 使 用 next() 方 法 获取 下 一 个 迭代 元 素 ， 如 下 所 示 : 


>>> 1i 二 ['a', "b's "Gy Td 'e'] 
>>> print enumerate(1i) 
<enumerate object at QOx00373E18> 
>>> e = enumerate(1i) 

>>> e.next() 


0, 'a') 
>>> e.next() 
(1, 'b') 


enumerate0 函 数 的 内 部 实现 非常 简单 ，enumerate(sedquence,start=0) 
实际 相当 于 如 下 代码 : 


def enumerate(sequence, start=0): 
n = start 
for elem in sequence: 
yield n, elem 
n += 1 


因此 利用 这 个 特性 用 户 还 可 以 实现 自己 的 enumerate0) 函 数 。 比 
如 ，myenumerate() 以 肥 序 的 方式 获取 序列 的 索引 和 值 。 


def myenumerate(sequence): 
n= -1 
for elem in reversed(sequence): 
yield len(sequence)+n, elem 
n =n-1 
1i = [Las 'b', Ve 'd', 'e'] 
for i,e in myenumerate(1i): 
print "index:",i,"element:",e 


程序 输出 如 下 : 


index: 4 element: e 
index: 3 element: d 
index: 2 element: c 
index: 1 element: b 
index: 0 element: a 


需要 提醒 的 是 ， 对 于 字典 的 迭代 循环 ，enumerate() 了 芳 数 并 不 适 
合 ， 虽 然 在 使 用 上 并 不 会 提示 错误 ， 但 输出 的 结果 与 期 望 的 大 相 径 
姓 ， 这 是 因为 字典 默认 被 转换 成 了 序列 进行 处 理 。 
personinfo = {'name': 'Jon', 'age': '20','hobby':'football'} 


for k, v in enumerate(personinfo): 
print k,v 


要 获取 迭代 过 程 中 字典 的 key 和 value， 应 该 使 用 如 下 iteritems() 方 
法 : 


for k,v in personinfo,iteritems( ): 
print k,":",v 


建议 16: 分 消 == 与 is 的 适用 场景 


在 判断 两 个 字符 串 是 否 相等 的 时 候 ， 混 用 is 和 == 征 很 多 初学 着 经 解 
犯 的 错误 ， 造 成 的 结果 是 程序 在 不 同情 况 下 表现 不 一 。 先 来 看 一 个 例 
四 全 


>>> a == b #1iS 


True 
>>> ai = "I am using long string for testing" 
>>> bi = "I am using long string for testing" 
>>> al is b1  #is 

的 结果 为 False 


False 
>>> al == bi 大 .三 三 
的 结果 为 True 
。 网 不 样 
True 


>>> Str1l = "string" 

>>> str2 二 "" ,join([' str an g']) 
>>> print str2 

String 

>>> Str1 is str2 

False 

>>> str1 == Str2 #=== 

和 is 

的 结果 在 这 种 情况 下 也 不 一 样 

True 


造成 这 种 奇怪 现象 的 原因 是 什么 昵 ? 为 什么 在 有 些 情 况 下 is 和 == 输 
出 相同 而 在 有 些 情 况 下 又 不 相同 呢 ? 我 们 来 分 析 一 下 : 首先 通过 id0 画 
数 来 看 看 这 些 变量 在 内 存 中 具体 的 存储 空间 ， 为 了 方便 讨论 问题 ， 用 
表 2-1 来 表示 上 例 具 体 结果 。 


表 2-1 不 同 变 量 组 id() 以 及 is 和 == 的 求 值 结 


a= "Hi"( 14085224 
True True 

b= "Hi" (LD 14085224 

al = "Tam using long string for testing" (2 13003368 
。 - - False True 

bl = "Tam using long string for testing" (2 14078152 

strl = "string" (® 13256448 
oe = False True 

str2 = "".join(['s',t,r",",n','g']) (3 14056544 


从 表格 中 可 以 清晰 地 看 到 ，is 和 == 在 验证 两 个 字符 串 是 否 相 等 的 时 
候 表 现 确实 不 一 致 ， 显 然 混 用 或 者 将 它们 等 同 起 来 是 存在 风险 的 。 那 
么 字符 串 的 比较 到 的 是 用 is 还 十 用 == 呢 ? 爷 来 看 看 Python 官方 文档 中 对 
这 两 种 操作 的 如 下 表 2-2 所 示 。 


表 2-2 ”两 种 操作 的 意义 


操 作 符 


object identity 


equal 


is 表 示 的 是 对 象 标示 符 (object identity) ， 而 == 表 示 的 意思 是 相等 

(equal) ， 显 然 两 者 不 是 一 个 东西 。 实 际 上 ， 造 成 上 面 输出 结果 不 一 
致 的 根本 原因 在 于 : is 的 作用 是 用 来 检查 对 象 的 标示 符 是 否 一 致 的 ， 也 
束 古 比较 两 个 对 象 在 内 存 中 是 否 拥 有 同一 块 内 存 空间 ， 它 并 不 适合 
来 判断 两 个 字符 串 是 否 相 等 。xis y 仅 当 x 和 y 是 同一 个 对 象 的 时 候 才 返 
回 True，x is y 基本 相当 于 id(x) == id(y)。 而 == 才 是 用 来 检验 两 个 对 象 
的 值 是 否 相 等 的 ， 它 实际 调用 内 部 _eq_(0) 方 法 ， 因 此 a == b 相 当 于 
a. eq (b)， 所 以 == 操 作 符 是 可 以 被 重 载 的 ， 而 is 不 能 被 重 载 。 一 般 情 
况 下 ， 如 果 xis y 为 True 的 话 x == y 的 值 也 为 True (特殊 情况 除外 ， 如 
NaN，a= float(NaN"); ais a 为 True，a==a 为 false) ， 反 之 则 不 然 。 


弄 清楚 了 is 和 == 之 间 的 区 别 ， 再 来 看 上 述 表 格 中 的 输出 也 残 不 难 理 
解 了 。 但 如 果 再 细心 一 点 也 许 会 发 现 第 1 组 (标注 DD) 中 a 和 b 的 id 值 一 
样 ， 也 就 是 说 它们 在 内 存 中 是 同一 个 对 象 ， 而 第 二 组 (标注 @@) 中 al 和 


bl 的 id 值 却 不 一 样 。 这 又 是 为 什么 呢 ? 这 是 Python 中 的 string interning 

(字符 串 驻 留 ) 机 制 所 决定 的 :对 于 较 小 的 字符 串 ， 为 了 提高 系统 性 
能 会 保留 其 值 的 一 个 副本 ， 当 创建 新 的 字符 串 的 时 候 直 接 指向 该 副本 
即 可 。 因 此 标注 四 中 *Hi" 在 系统 内 存 中 实际 上 只 有 一 个 副本 ， 所 以 a 和 b 
的 id 值 是 一 样 的 ， 而 标注 @ 中 al 和 bl 是 长 字符 串 ， 并 不 会 驻 留 ，Python 
内 存 中 各 自 创 建 了 对 象 来 表示 al 和 bl1， 这 两 个 对 象 拥 有 相同 的 内 容 但 
对 象 标 示 符 却 不 相同 ， 所 以 == 的 值 为 True 而 is 的 值 为 False。 


建议 17: 考虑 兼容 性 ， 尽 可 能 使 用 Unicode 


Python 内 建 的 字符 串 有 两 种 类 型 : str 和 Unicode， 它 们 拥有 共同 的 
祖先 basestring。 其 中 Unicode 是 Python2.0 中 引入 的 一 种 新 的 数据 类 型 ， 
所 有 的 Unicode 字 符 串 都 是 Unicode 类 型 的 实例 。 创 建 一 个 Unicode 字 符 
相对 简单。 


>>> strUnicode = u"unicode 
字符 申 " # 


前 面 加 u 

表示 Unicode 

>>> strUnicode 

U'unicode \u5b57\u7b26\u4e32' 
>>> print strUnicode 

unicode 
字符 串 


>>> type(strUnicode) 

<type "unicode '> 

>>> type(strUnicode). bases _ 
(<type 'basestring'>,) 


Python 中 为 什么 需要 加 入 对 Unicode 的 支持 呢 ? 我 们 先 来 了 解 一 下 
Unicode 相 关 的 背景 知识 。 


在 Unicode 之 前 ， 最 早 的 ASCII 编 码 用 一 个 字 节 《8bit， 最 高 位 为 
0) 只 能 表示 128 个 字符 ， 如 英文 大 小 写字 符 、 数 字 以 及 其 他 符号 等 。 
但 世界 上 显然 不 只 有 一 种 语言 ， 不 同 种 语言 所 包含 的 字符 数量 也 不 相 
同 ， 对 于 很 多 语言 来 说 128 个 字符 数 是 远 远 不 够 的 ， 即 使 对 ASCII 进 行 
扩展 ，256 个 字符 也 不 能 满足 要 求 。 于 是 出 现 了 各 种 不 同 的 字符 编码 系 
统 ， 如 我 国 表示 汉字 编码 的 GBK。 但 这 又 引入 了 一 个 新 的 问题 : 不 同 
编码 系统 之 间 存 在 冲突 。 在 两 种 不 同 的 编码 系统 中 ， 相 同 的 编码 可 能 
代表 不 同 的 意义 或 者 不 同 的 编码 代表 相同 的 字符 ， 从 而 导致 不 同 平 
人 台 、 不 同 语言 之 间 的 文本 无 法 很 好 地 进行 转换 。 比 如 , “我 * 字 在 
GB2312 中 表示 为 0x4650， 而 繁体 中 文 Big5 中 的 编码 为 0XA7DA， 而 


0XA7DA 在 GB2312 中 却 表示 “ 赔 ”"， 乱 码 由 此 产生 。 要 解决 这 个 问题 ， 
必须 为 不 同 的 文字 分 配 统一 编码 ，Unicode (Universal Multiple-Octet 
Coded Character Set) 由 此 产生 ， 它 也 被 称 作 万 国 码 ，Unicode 为 每 种 语 
言 设置 了 唯一 的 二 进 制 编码 表示 方式 ， 提 供 从 数字 代码 到 不 同 语言 字 
符 集 之 间 的 映射 ， 从 而 可 以 满足 跨 平 台 、 跨 语言 之 间 的 文本 处 理 要 

求 o 


Unicode 编 码 系统 可 以 分 为 编码 方式 和 实现 方式 两 个 层次 。 在 编码 
方式 上 ， 分 为 UCS-2 和 UCS-4 两 种 方式 ，UCS-2 用 两 个 字 节 编 合 ，UCS- 
4 用 4 个 字 世 编码。 目前 实际 应 用 的 统一 码 版 本 对 应 于 UCS-2， 使 用 16 位 
的 编码 空间 。 一 个 字符 的 Unicode 编 码 是 确定 的 ， 但 是 在 实际 传输 过 程 
中 ， 由 于 系统 平台 的 不 同 以 及 出 于 市 省 空间 的 目的 ， 实 现 方式 有 所 差 
异 。Unicode 的 实现 方式 称 为 Unicode 转 换 格 式 (Unicode Transformation 
Format) ， 简 称 为 UTF， 包 括 UTF-7、UTF-16、UTF-32，UTF-8 等 ， 其 
中 较为 常见 的 为 UTF-8。UTF-8 的 特点 是 对 不 同 范 围 的 字符 使 用 不 同 长 
度 的 编码 ， 其 中 0x00~0x7F 的 字符 的 UTF-8 编 码 与 ASCII 编 码 完 全 相 
同 。UTEF-8 编 码 的 最 大 长 度 是 4 个 字 节 ， 从 Unicode 到 UTF-8 的 编码 方式 
如 表 2-3 所 示 。 


表 2-3 ”Unicode 到 UTF-8 的 编码 方式 


Unicode 编码 (十 六 进 制 ) UTF-8 字 节 流 (二进制 ) 
000000 ~ 00007F 0OXXXXXXX 
000080 ~ 0007FF 110XXXXX 10XXXXXX 
000800 ~ 00FFFF 1110XXXX 10XXXXXX 10XXXXXX 
010000 ~ 10FFFF llllOxxx 10XXXXXX 10XXXXXX 10XXXXXX 


Unicode 经 过 几 十 年 的 发 展 ， 逊 渐 成 为 业界 标准 ， 许 多 相关 技术 都 
提供 Unicode 支 持 ， 如 XML、Java、LDAP、CORBA 3.0 等 ，Python 也 不 
例外 。 更 多 Unicode 的 知识 读者 可 以 查看 http://www.unicode.org/。 


在 了 解 完 Unicode 的 背景 知识 之 后 再 来 看 看 Python 中 处 理 中 文字 符 
经 常会 遇见 的 以 下 几 个 问题 : 


示例 一 ” 读 出 文件 的 内 容 显 示 为 乱码 。 


filehandle = open("test.txt",'r') 
print filehandle.read() 
filehandle.close() 


其 中 ， 文 件 test,txt 中 的 内 容 为 "python 中 文 测试 ”， 文 件 以 UTF-8 的 
形式 你 人 存 。 


运行 程序 结果 如 下 : 


LD 
构 贡 如 关 


示例 二 “ 当 Python 源 文件 中 包含 中 文字 符 的 时 候 抛 出 SyntaxError 


请 


异 币 。 
unicodetest.py 文 件 的 内 容 如 下 : 


s = "python 
中 文 测试 " 


print s 


上 述 程 序 运行 时 报错 如 下 : 


File "unicodetest.py", line 1 
SyntaxError: Non-ASCII character '\xd6' in file unicodetest.py on line 1, but no 
encoding declared; see http://www.python.org/peps/pep-0263.html for details 


示例 三 ”普通 字符 和 Unicode 进 行 字 符 串 连接 的 时 候 抛 出 


UnicodeDecodeError 异 常 。 


coding= utf-8 


中 文 测试 " + UnChinese Test" 
print s 


程序 运行 抛 出 异常 如 下 : 


Traceback (most recent call last): 
i "tests. py", line 2, in <module> 


中 文 测试 " + U"Chinese Test" 
UnicodeDecodeError: 'ascii' codec can't decode byte 0xd6 in position 0: ordinal 
not in range(128) 


0 分 析 上 面 例子 产生 吴凤 的 原因 以 及 如 何在 不 同 肌 编 友和 
Unicode 之 间 进 行 转换 。 


示例 一 分 析 : 读 入 的 文件 test.txt 用 UTEF-8 编 码 形式 保存 ， 但 是 
Windows 的 本 地 默认 编码 是 CP936， 在 Windows 系 统 中 它 梓 映射 为 GBK 
编码 ， 所 以 当 在 控制 台 上 直 返 显示 UTF-8 字 符 的 时 候 ， 这 两 种 编码 并 不 
兼容 ， 以 UTF-8 形 式 表示 的 编码 在 GBK 编 码 中 被 解释 成 为 其 他 的 符号 ， 
由 此 便 产 生 了 乱码 。 通 过 上 面 的 背景 知识 了 解 到 Unicode 为 不 同 语言 设 
置 了 唯一 的 二 进 制 表示 形式 ， 可 以 轻易 地 解决 不 同 字 符 集 之 间 的 字符 
映射 问题 ， 因 此 要 解决 示例 一 的 乱码 问题 可 以 使 用 Unicode 作 为 中 间 介 
质 来 完成 转换 。 首 先 需 要 对 读 入 的 字符 用 UTF-8 进 行 解码 ， 然 后 再 用 
GBK 进 行 编码 。 修 改 后 的 结果 如 下 : 


filehandle = open("test,txt" r ) 
print (filehandle.read(). al 'utf-8")).encode("gbk") ...... 


© 
filehandle.close() 


输出 为 : 


python 
中 文 测试 


代码 标注 QD 处 分 别 使 用 了 decode() 和 encode() 方 法 ， 这 两 个 方法 的 
作用 分 别 是 对 字符 串 进行 解码 和 编码 。 其 中 decode() 方 法 将 其 他 编码 对 
应 的 字符 串 解 码 成 Unicode， 而 encode0) 方 法 将 Unicode 编 码 转换 为 另 一 
种 编码 ，Unicode 作 为 转换 过 程 中 的 中 间 编 码 。decode() 和 encode() 方 法 
的 函数 形式 如 下 : 


str.decode([ 
编码 参数 [， 
错误 处 理 ] ] ) 
str.encode([ 
编码 参数 [， 
错误 处 理 ] ] ) 


第 见 的 编码 参数 如 表 2-4 所 示 。 


表 2-4 第 见 编码 参数 


编码 参数 描 述 
'ascii' 7 位 ASCII 码 
‘latin-1' or '1s0-8859-1' ISO 8859-1, Latin-l 
utf-8' 8 位 可 变 长 度 编码 
"utf-16' 16 位 可 变 长 度 编码 
mtf-26-le' UFT-16，little-endian 编码 
‘utf-16-be' UFT-16，big-endian 编码 
‘unicode-escape' 与 unicode 文字 u'string' 相同 
'Taw-unicode-escape' 与 原始 Unicode 文字 ur'string' 相同 


错误 处 理 参 效 有 以 下 3 种 音 用 方式 : 

1) strict: 默认 处 理 方式 ， 编 码 错误 抛 出 UnicodeError 腊 常 。 

2) ignore' 忽 略 不 可 转换 字符 。 

3) replace' 将 不 可 转换 字符 用 ? 代 蔡 。 

对 于 A、B 两 种 编码 系统 ， 两 者 之 间 的 相互 转换 示意 图 如 图 2-1 所 


l .decode (A) 
一 


图 2-1 编码 转换 示意 图 


标注 (QD 处 flehandle.read0 读 出 来 的 字符 串 是 用 UTF-8 表 示 的 ， 也 就 
是 A 表示 为 UTF-8， 使 用 decode() 方 法 解码 得 到 Unicode， 对 应 上 图 季 头 1 
所 示 过 程 ， 人 lehandle.read().decode("utf-8")。 然 后 再 使 用 encode 方 法 将 
Unicode 转 换 为 为 GBK 的 表示 形式 ， 如 采 unicodestr= 
filehandle.read(0.decode("utf-8 几 的话， 则 unicodestr.encode("gbk") 表 示 季 
头 2 所 示 过 程 。 所 以 从 A 到 B 对 应 的 代码 为 : 


(filehandle.read().decode("utf-8")).encode("gbk") 


提醒 : 上 面 的 例子 在 某 些 有 些 情况 下 ee 
以 UTF-8 编 码 形式 保存 ) 可 能 还 会 出 现 如 下 异 


print (filehandle.read().decode("utf-8")).encode("gbk") 
UnicodeEncodeError: 'gbk' codec can't encode character u'\ufeff' in position 0: 
illegal multibyte sequence 


这 是 因为 有 些 软件 在 保存 UTF-8 编 码 的 了 时候， 会 在 文件 最 开始 的 地 
方 插 入 不 可 见 的 字符 BOM (0xEF 0xBB 0xBF， 即 BOM) ， 这 些 不 可 见 
字符 无 法 被 正确 的 解析 ， 而 利用 codecs 模 块 可 以 方便 地 处 理 这 种 问题 。 


import codecs 

content = open("test.txt",'r').read() 
filehandle.close() 

If content[:3] == codecs.BOM UTF8:# 
如 果 存 在 BOM 

字符 则 去 掉 

content = content[3:] 

print content.decode("utf-8") 


Unicode 存 储 有 字 节 序 的 问题 ， 例 如 “ 汉 ”* 字 的 Unicode 编 码 是 
0X6C49， 如 果 将 6C 写 在 前 面 ， 则 为 big endian， 将 49 写 在 前 面 则 成 为 
little endian。UTEF-16 以 两 个 字 节 为 编码 单元 ， 在 字符 的 传送 过 程 中 ， 
为 了 标明 字 节 的 顺序 ，Unicode 规 范 中 推荐 使 用 BOM (Byte Order 
Mark) : 即 在 UCS 编 码 中 用 一 个 叫做 ZERO WIDTH NO-BREAK 
SPACE 的 字符 ， 它 的 编码 是 FEFF (该 编码 在 UCS 中 不 存在 对 应 的 字 
和 从) ，UCS 规 范 建 议 在 传输 字 节 流 前 ， 先 传输 字 行 ZERO WIDTH NO- 
BREAK SPACE。 这 样 如 果 授 收 痢 收 到 FEFF， 束 表明 这 个 字 广 流 是 
Big-Endian 的 ; 如 有 果 收 到 FFFE， 束 表明 这 个 字 节 流 是 Little-Endian 的 。 
UTF-8 使 用 字 节 来 编码 ， 一 般 不 需要 BOM 来 表明 字 节 顺序 ， 但 可 以 用 
BOM 来 表明 编码 方式 。 字 符 ZERO WIDTH NO-BREAK SPACE 的 UTF- 
8 编码 是 EF BB BF。 所 以 如 果 接 收 者 收 到 以 EF BB BF 开头 的 字 节 流 ， 
就 知道 这 是 UTF-8 编 码 了 。 


示例 二 分 析 : Python 中 默认 的 编码 是 ASCII 编 码 〈 这 点 可 以 通过 
sys.getdefaultencoding() 来 验证 ) ， 所 以 unicodetest.py 文 件 是 以 ASCII 形 
式 保存 的 ，s 是 包含 中 文字 符 的 普通 字符 串 。 当 调用 print 方 法 输出 的 时 
候 会 隐 式 地 进行 从 ASCII 到 系统 默认 编码 (Windows 上 为 CP936) 的 转 
换 ， 中 文字 符 并 不 是 ASCII 子 符 ， 而 此 时 源 文 件 中 广 未 指定 其 他 编码 方 
式 ，Python 解 释 圳 并 不 知道 如 何 正 确 处 理 这 种 情况 ， 便 会 抛 出 异种 : 
SyntaxError: Non-ASCII character \xd6' in file unicodetest.py on line 1。 
此 ， 要 避免 这 种 错误 需要 在 源 文件 中 进行 编码 声明 ， 声 明 可 用 正则 表 
达 式 、 


"coding[:=]\s*([-\w.]+)" 表 示 。 一 般 来 说 进行 源 文件 编码 声明 有 以 下 
3 种 方式 : 


第 一 种 声明 方式 : 


# coding=<encoding name> 


第 二 种 声明 方式 : 


#!/Uusr/bin/python 
# -*- Coding: <encoding name> -*- 


第 三 种 声明 方式 : 


#!/UsSr/bin/python 
# vim: set fileencoding=<encoding name> : 


示例 二 在 源 文 件 头 中 加 入 编码 声明 # coding=utf-8 便 可 解决 问题 。 


示例 三 分 析 :， 使 用 + 操作 人 符 来 进行 字符 串 的 连接 时 ，+ 左 边 为 中 文 
字符 串 ， 类 型 为 sr， 右 边 为 Unicode 字 符 串 。 当 两 种 类 型 的 字符 串 连 接 
的 时 候 ，Python 将 左边 的 中 文字 符 串 转换 为 Unicode 再 与 右边 的 Unicode 
字符 串 做 连接 ， 将 str 转 换 为 Unicode 时 使 用 系统 默认 的 ASCII 编 码 对 字 
符 串 进行 解码 ， 但 由 于 “中 文 测试 ?的 ASCII 编 码 为 
\xd6\xd0\xce\xc4\xb2\xe2\xcavxd4， 其 中 “中 ? 字 的 编码 \xd6 对 应 的 值 为 
214。 当 编码 值 在 0~127 的 时 候 Unicode 和 ASCII 是 兼容 的 ， 转 换 不 会 有 
什么 问题 ， 但 当 其 值 大 于 128 的 时 候 ，ASCII 编 码 便 不 能 正确 处 理 这 种 
情况 ， 因 而 抛 出 UnicodeDecodeError 异 常 。 解 决 上 面 的 问题 有 以 下 两 种 
思路 : 


1) 指定 str 转 为 Unicode 时 的 编码 方式 。 


# coding=utf-8 


SS- 三 
中 文 测试 " .decode('gbk') + u"Chinese Test" 


2) 将 Unicode 字 符 串 进行 UTF-8 编 码 。 


S 二 mh 
中 文 测试 "+ u"Chinese Test".encode("utf-8") 


Unicode 提 供 了 不 同 编码 系统 之 则 字符 转换 的 桥梁 ， 要 避免 令 人 类 
疼 的 乱码 或 者 避免 UnicodeDecodeError 以 及 UnicodeEncodeError 等 错 
误 ， 需 要 弄 清楚 字符 所 采用 的 编码 方式 以 及 正确 的 解码 方法 。 对 于 中 
文字 符 ， 为 了 做 到 不 同系 统 之 间 的 兼容 ， 建 议和 直接 使 用 Unicode 表 示 方 
式 。Python2.6 之 后 可 以 通过 import unicode_literals 上 自动 将 定义 的 普通 字 
符 识 别 为 Unicode 字 人 符 串 ， 这 样 字 符 串 的 行为 将 和 Python3 中 保持 一 致 。 


>>> from _ future _ import unicode literals 
>>> S 二" 

中 文 测试 " 

>>> S 

u'\u4e2d\u6587\u6d4b\u8bd5' 


建议 18: 构建 合理 的 包 层 次 来 管理 module 


我 们 知道 ， 本 质 上 每 一 个 Python 文件 都 是 一 个 模块 ， 使 用 模块 可 
以 增强 代码 的 可 维护 性 和 可 重用 性 。 但 显然 在 大 的 项 目 中 将 所 有 的 
Python 文件 放 在 一 个 目 孙 下 并 不 是 一 个 值得 推荐 的 做 法 ， 我 们 需要 合 
理 地 组 织 项 目的 层次 来 管理 模块 ， 这 就 是 包 (Package) 发 挥 功 效 的 地 
ps 


什么 是 包 呢 ?位 单 说 包 即 是 目录 ， 但 与 普通 目录 不 同 ， 它 除了 包 
含 常 规 的 Python 文件 〈 也 就 是 模块 ) 以 外 ， 还 包含 一 个 _init .py 文 
件 ， 同 时 它 允 许 蔷 套 。 包 结构 如 下 : 


Package/ _ init .py 
Module1,py 
Module2 .py 
Subpackage/ _ init .py 
Module1.py 
Module2.py 


包 中 的 模块 可 以 通过 “.” 访 问 符 进行 访问 ， 即 “ 包 和 名 .模块 名 。 如 上 
述 般 套 结 构 中 访问 Package 目 录 下 的 Modulel 可 以 使 用 
Package.Modulel1， 而 访问 Subpackage 中 的 Modulel 则 可 以 使 用 
Package.Subpackage.Modulel1。 包 中 的 模块 同样 可 以 被 导入 其 他 模块 
中 。 有 以 下 几 种 导入 方法 : 


1) 直接 导入 一 个 包 ， 具 体 如 下 : 


import Package 


2) 导入 和子 模块 或 和子 包 ， 包 舱 套 的 情况 下 可 以 进行 圣 套 导入 ， 具 体 
如 下 : 


from Package import Module1 

import Package.Module1 

from Package import Subpackage 

import Package,Subpackage 

From Package.Subpackage import Modulel1 
import Package.Subpackage.Module1 


冲 面 提 到 在 包 对 应 的 目录 下 包含 有 _ init .py 文件 ， 那 么 这 个 文 
件 的 作用 是 什么 呢 ? 它 最 明显 的 作用 惑 是 使 包 和 普通 目录 区 分 ， 其 次 
可 以 在 该 文件 中 申明 模块 级 别 的 import 语 句 从 而 使 其 变 成 包 级 别 可 
见 。 上 例 所 示 的 结构 中 ， 如 果 要 import 包 Package 下 Modulel 中 的 类 
Test， 当 ”init .py 文件 为 空 的 时 候 需 要 使 用 完整 的 路 径 来 申明 import 


语句 ]: 


from Package.Module1 import Test 


但 如 果 在 _init .py 文件 中 添加 from Modulel import Test 语 句 ， 则 
可 以 直接 使 用 from Package import Test 来 导入 类 Test。 需 要 注意 的 是 ， 
如 果 _init .py 文件 为 空 ， 当 意图 使 用 from Package import * 将 包 
Package 中 所 有 的 模块 导入 当前 名 字 空 间 时 并 不 能 使 得 导入 的 模块 生 
效 ， 这 是 因为 不 同 平台 间 的 文件 的 命名 规则 不 同 ，Python 解 释 器 并 不 
能 正确 判定 模块 在 对 应 的 平台 该 如 何 导 入 ， 因 此 它 仅仅 执行 
_ init_ .py 文件 ， 如 果 要 控制 模块 的 导入 ， 则 需要 对 __init_ .py 文件 做 
修改 。 


_ init .py 文件 还 有 一 个 作用 就 是 通过 在 该 文件 中 定义 _all_ 变 
量 ， 控 制 需 要 导入 的 子 包 或 者 模块 。 在 上 例 的 Package 目 录 下 的 
_init .py 文件 中 添加 : 


all = ['Module1', 'Module2','Subpackage'] 


之 后 再 运行 from Package import*， 可 以 看 到 _all _ 变量 中 定义 的 
模块 和 包 被 导入 当前 名 字 空 间 。 


>>> from Package import * 


>>> dir() 
['Module1', 'Module2', 'Subpackage', '` builtins ', '_doc ', '_name _  '， 
'__package _'"] 


包 的 使 用 能 够 带 来 以 下 便利 ;: 


-合理 组 织 代码 ， 便 于 维护 和 使 用 。 通过 将 关系 密切 的 模块 组 织 成 
一 个 包 ， 使 项 目 结构 更 为 完善 和 合理 ， 从 而 增强 代码 的 可 维护 性 和 实 
用 性 。 以 下 是 一 个 可 供 参 考 的 Python 项 目 结构 : 


ProjectName/ 
| - - -README 
|----LICENSE 


|----setup.py 
|----- requirements.txt 


| 
| |----core.py 
| 


|------ docs/ 
| 1- conf .py 


| |------ test_basic,py 
| |------ test_advanced.py 


-能够 有 效 地 避免 名 称 空间 神 突 。 使 用 from Package import 
Module2 可 以 将 Module2 导 入 当前 局 部 名 字 空 间 ， 访 问 的 时 候 不 再 需要 
加 入 包 名 。 看 下 面 这 个 例子 : 


>>> from Package import Module2 
>>> Module2.Hi() 
Hi from Package Module1 


上 述 代 码 中 Subpackage 中 也 包含 Module2， 当 使 用 from.… import... 
导入 的 时 候 ， 生 效 的 是 Subpackage 的 Module2。 结 果 如 下 : 
>>> from Package.Subpackage import Module2 


>>> Module2.Hi() 
Hi from Subpackage Module2 


如 果 模 块 包 含 的 属性 和 方法 存在 同名 冲突 ， 使 用 import module 可 
以 有 效 地 避免 名 称 神 突 。 在 租 套 的 包 结 构 中 ， 每 一 个 模块 都 以 其 所 在 
的 完整 路 径 作 为 其 前 级 ， 因 此 ， 即 使 名 称 一 样 ， 但 由 于 模块 所 对 应 的 
其 前 级 不 同 ， 因 此 不 会 产生 冲突 。 


>>> import Package.Module2 

>>> Package.Module2.Hi() 

Hi from Package Module1 

>>> import Package.Subpackage.Module2 
>>> Package.Subpackage.Module2.Hi() 
Hi from Subpackage Module2 


注意 ， 本 市 所 说 的 包 与 后 文中 谈 到 的 软件 包 不 同 ， 这 里 的 包 的 概 
念 仅 限于 包含 一 个 或 一 系列 Python 文 件 模块) 的 文件 夹 (目录 ) ， 
它 的 作用 是 合理 组 织 代 码 ， 便 于 维护 和 使 用 ， 并 避免 命名 冲突 。 


第 3 划 ” 基 础 语法 


Python 中 篆 见 的 基本 数据 类 型 有 数字 、 字 符 串 、 列 表 、 字 典 、 集 
合 、 元 组 等 ， 和 常见 语法 有 条 件 、 循 环 、 画 数 、 列 表 解 析 等 。 它 们 两 者 
组 合 起 来 便 构 成 了 Python 程 序 的 基本 要 素 ， 可 以 称 之 为 基础 语法 。 本 
章 我 们 主要 从 语法 层面 阐述 一 些 使 用 技巧 和 注意 事项 。 


建议 19: 有 下 制 地 使 用 from...import 语 名 


Python 提供 了 3 种 方式 来 引入 外 部 模块 : import 语 句 、 
from...import... 及 _import 函数。 其 中 较为 常见 的 为 前 面 两 种 ， 而 
_ import_ 函数 与 import 语 句 类 似 ， 不 同 点 在 于 前 者 显 式 地 将 模块 的 名 
称 作 为 字符 串 传 递 并 赋值 给 命名 空间 的 变量 。 


在 使 用 import 的 时 候 注 意 以 下 几 点 : 


.一 般 情况 下 尽量 优先 使 用 import a 形式 ， 如 访问 B 时 需要 使 用 a.B 
的 形式 。 


:有 市 制 地 使 用 from a import B 形 式 ， 可 以 直接 访问 B。 


.尽量 避免 使 用 from a import* ， 因 为 这 会 污染 命名 空间 ， 并 且 无 
法 清晰 地 表示 导入 了 哪些 对 象 。 


为 什么 在 使 用 import 的 时 候 要 注意 以 上 几 点 呢 ? 在 回答 这 个 问题 
之 前 移 来 简单 了 解 一 下 Python 的 import 机 制 。Python 在 初始 化 运行 环境 
的 时 候 会 预先 加 载 一 批 内 建 模块 到 内 存 中 ， 这 些 模块 相关 的 信息 被 存 
放 在 sys.modules 中 。 读 者 导入 sys 模 块 后 在 Python 解 释 絮 中 输入 
sys.modules.items() 便 可 显示 所 有 预 加 载 模块 的 相关 信息 。 当 加 载 一 个 
模块 的 上 时候， 解释 器 实 际 上 要 完成 以 下 动作 : 


1) 在 sys.modules 中 进行 搜索 看 看 该 模块 是 否 已 经 存在 ， 如 果 存 
在 ， 则 将 其 导入 到 当前 局 部 命名 空间 ， 加 载 结 束 。 


2) 如 果 在 sys.modules 中 找 不 到 对 应 模块 的 名 称 ， 则 为 需要 导入 的 
模块 创建 一 个 字典 对 象 ， 并 将 该 对 象 信息 插入 sys.modules 中 。 


3) 加 载 前 确认 是 否 需 要 对 模块 对 应 的 文件 进行 编译 ， 如 果 需 要 则 
先进 行 编译 。 


4) 执行 动态 加 载 ， 在 当前 模块 的 命名 空间 中 执行 编译 后 的 字 市 
码 ， 并 将 其 中 所 有 的 对 象 放 入 模块 对 应 的 字典 中 。 


我 们 以 用 户 目 定义 的 模块 为 例 来 看 看 sys.modules 和 当前 局 部 命名 
空间 发 生 的 变化 。 在 Python 的 安 逆 目 孙 下 创建 一 个 简单 的 模块 


testmodule.py: 


1 
a 


入 有 
全 三 
print "testing module import" 


我 们 知道 用 户 模 块 未 加 载 之 前 ，sys.modules 中 并 不 存在 相关 信 
局 。 那 么 进行 import testmodule 探 作 会 发 生 什 么 情况 呢 ? 


>>> dir() 
[' builtins ', '_doc ', '_name ', '_ package ', 'sys'] 
>>> import testmodule 
testing module import 
>>> dir() 
中 import testmodule 
后 局 部 命名 空间 发 生变 化 
['_ builtins ', '_doc ', '_name ', '_ package ', 'sys', 'testmodule' 


] 

>>> 'testmodule' in sys.modules.keys() 

True 

六 > | 

357763 

>>> ra modules['testmodule']) 

35776304 

>>> dir(testmodule) 

['_ builtins ', '_doc ', '_file ', '_name ', '_ package ', 'a', 'b'] 
>>> modules[ testmodule， ]._ dict _ ‘keys() 

['a', 'b', '__builtins ', '_ file ', '_ package ', '_name ', '_doc ',] 


从 输出 结果 可 以 看 出 ， 对 于 用 户 定义 的 模块 ，import 机 制 会 创建 
一 个 新 的 module 将 其 加 入 当前 的 局 部 命名 空间 中 ， 与 此 同时 ， 
sys.modules 也 加 入 了 该 模块 的 相关 信息 。 但 从 它们 的 id 输出 结果 可 以 
看 出 ， 本 质 上 是 引用 同一 个 对 象 。 同 时 会 发 现 testmodule.py 所 在 的 目 


录 下 多 了 一 个 .pyc 的 文件 ， 该 文件 为 解释 器 生成 的 模块 相对 应 的 字 市 
码 ， 从 import 之 后 的 输出 “testing module import” 可 以 看 出 模块 同时 被 执 
行 ， 而 a 和 b 被 写 入 testmodule 所 对 应 的 字典 信息 中 。 


需要 注意 的 是 ， 直 接 使 用 import 和 使 用 from a import B 形 式 这 两 者 
之 间 存 在 一 定 的 差异 ， 后 者 直接 将 B 桑 露 于 当前 局 部 空间 ， 而 将 a 加 载 


到 sys.modules 集 合 。 


>>> import sys 

>>> dir() 

[' builtins ', '_doc ', '_name ', '_ package ', 'sys'] 
>>> from testmodule import a 

testing module import 

>>> 


from...... import...... 
之 后 命名 空间 发 生 的 变化 
['_ builtins ', '_doc ', '_name ', '_ package '，'a'，'SyS '] 


>>> sys.modules['testmodule'] 
<module 'testmodule' from 'testmodule.pyc'> 
>>> id(sys.modules['testmodule']) 
36562576 
>>> id(a) 
31697400 
>>> id(sys.modules['a']) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
KeyError: 'a' 


了 解 完 import 机 市， 我们 再 来 看 看 对 于 from a import .… 无 万 制 的 使 
用 会 市 来 什么 问题 。 


(1) 命名 空间 的 冲突 


来 看 一 个 例子 。 假 设 有 如 下 3 个 文件 : apy，b.py 及 importtest.py， 
其 中 a 和 b 都 定义 了 add() 函 数 ， 当 在 import test 文 件 中 同时 采用 
from...import..…. 的 形式 导入 add 的 时 候 ，import test 中 起 作用 的 到 底 是 哪 
一 个 函数 呢 ? 


文件 a.py 如 下 : 


def add( ) : 
print "add in module A" 


文件 b.py 如 下 : 


def add() : 
print "math in module B" 


文件 importtest.py 如 下 : 


from a import add 

from b import add 

if name == "'_ main _' 
math() 


从 程序 的 输出 “add in module B” 可 以 看 出 实际 起 作用 的 是 最 近 导 入 
的 add()， 它 完全 和 履 盖 了 当前 命名 空间 之 前 从 a 中 导入 的 add()。 在 项 目 
中 ， 特 别 是 大 型 项 目 中 频繁 地 使 用 from a import ... 的 形式 会 增加 命名 
空间 冲突 的 概率 从 而 导致 出 现 无 法 预料 的 问题 。 因 此 需要 有 市 制 地 使 
用 from...import 语 句 。 一 般 来 说 在 非常 明确 不 会 造成 命名 冲突 的 前 提 
下 ， 以 下 几 种 情况 下 可 以 考虑 使 用 from...import 语 句 : 


1) 当 只 需要 导入 部 分 属性 或 方法 时 。 


2) 模块 中 的 这 些 属性 和 方法 访问 频率 较 高 导致 使 用 “模块 名 .名 
称 * 的 形式 进行 访问 过 于 烦琐 时 。 


3) 模块 的 文档 明确 说 明 需 要 使 用 from...import 形 式 ， 导 入 的 是 一 
个 包 下 面 的 子 模块 ， 且 使 用 from...import 形 式 能 够 更 为 简单 和 便利 时 。 
如 使 用 from io.drivers import zip 要 比 使 用 import io.drivers.zip 更 方便 。 


(2) 循环 侍 套 导入 的 问题 


先 来 看 下 面 的 例子 : 


c1.py: 
from c2 import g 
def x(): 

Pass 
c2.py: 
from c1 import x 
def g(): 

Pass 


无 论 运行 上 面 哪 一 个 文件 都 会 抛 出 ImportError 异 常 。 这 是 因为 在 
执行 cl.py 的 加 载 过 程 中 ， 需 要 创建 新 的 模块 对 象 c1 然 后 执行 cl.py 所 对 
应 的 字 蔬 码 。 此 时 遇 到 语句 from c2 import g， 而 c2 在 sys.modules 也 不 
存在 ， 故 此 时 创建 与 c2 对 应 的 模块 对 象 并 执行 c2.py 所 对 应 的 字 届 人 码 。 
当 遇 到 c2 中 的 语句 from cl import x 上 时， 由 于 cl 已 经 存在 ， 于 是 便 去 其 
对 应 的 字典 中 得 找 g， 但 cl 模块 对 象 虽然 创建 但 初始 化 的 过 程 并 未 完 
成 ， 因 此 其 对 应 的 字典 中 并 不 存在 g 对 象 ， 此 时 便 抛 出 ImportError: 
cannot import name g 寞 常 。 而 解决 循环 符 套 导入 问题 的 一 个 方法 是 直 
接 使 用 import 语 句 。 读 者 可 以 自行 验证 。 


建议 20: 优先 使 用 absolute import 来 导入 模 
块 


假设 有 如 下 文件 结构 ， 其 中 app/subl/string.py 中 定义 了 一 个 lower0) 
方法 ， 那 么 当 在 mod1.py 中 import string 之 后 再 使 用 string.ljower() 方 法 
时 ， 到 底 引 用 的 是 subl/string.py 中 的 lower0 方 法 ， 还 是 Python 标准 库 中 
string 里 面 的 lower(0) 方 法 呢 ? 


Sub2/ 
__init .py 
mod2.py 


从 程序 的 输出 会 发 现 ， 它 引用 的 是 app/sub1/string.py 中 的 lower() 方 
法 。 显 然 解释 器 默 认 移 从 当前 目 永 下 搜索 对 应 的 模块 ， 当 搜 到 string.py 
的 时 候 便 停止 搜索 进行 动态 加 载 。 那 么 ， 如 果 要 使 用 Python 目 带 的 
string 模 块 中 的 方法 ， 该 怎么 实现 呢 ?” 这 就 涉及 absolute import 和 relative 
import 相 天 的 话题 了 。 


在 Python2.4 以 前 默认 为 隐 式 的 relative import， 局 部 范围 的 模块 将 
窗 盖 同名 的 全 局 范围 的 模块 。 如 有 果 要 使 用 标注 库 中 同名 的 模块 ， 你 不 
得 不 去 深入 考察 sys.modules 一 番 ， 显 然 这 并 不 是 一 种 非常 友好 的 做 
法 。Python2.5 中 后 虽然 默认 的 仍然 是 relative import， 但 它 为 absolute 
import 提 供 了 一 种 狐 的 机 制 ， 在 模块 中 使 用 from future_ ”import 
absolute_import 语句 进行 说 明 后 再 进行 导入 。 同 时 它 还 通过 点 号 提供 
了 一 种 显 式 进行 relative import 的 方法 ,“.” 表 示 当 前 目录 ,“..” 表 示 当 前 


目录 的 上 一 层 目 录 。 例 如 想 在 mod1l.py 中 导入 string.py， 可 以 使 用 from . 
import string， 其 中 mod1 所 在 的 包 层 次 结构 为 app.sub1.mod1,“.” 表 示 
app.sSub1; 如 果 想 导入 sub2/mo2.py 可 以 使 用 from ..sub2 import 

mod2,“..” 代 表 的 是 app。 


但 事情 是 不 是 瓯 此 结束 了 呢 ? 远 不 止 ， 使 用 显 式 relative import 之 
后 再 运行 程序 一 不 小 心 你 区 有 可 能 过 到 这 种 错误 “ValueError: 
Attempted relative import in non-package”。 这 是 什么 原因 呢 ? 这 个 问题 
产生 的 原因 在 于 relative import 使 用 模块 的 _name_ 属性 来 决定 当前 模 
块 在 包 层 次 结构 中 的 位 置 ， 如 果 当 前 的 模块 名 称 中 不 包含 任何 包 的 信 
妃 ， 那 么 它 将 默认 为 模块 在 包 的 顶层 位 置 ， 而 不 管 模 块 在 文件 系统 
的 实际 位 置 。 而 在 relative import 的 情形 下 ，_name 会 随 着 文件 加 载 
方式 的 不 同 而 发 生 改 变 ， 上 例 中 如 在 目录 app/sub1/ 下 运行 Python 
mod1.py， 会 发 现 模 块 的 _name 为 _main ， 但 如 果 在 目录 
app/sub1/ 下 运行 Python-m modl.py， 会 发 现 _name _” 变 为 mod1。 其 中 - 
m 的 作用 是 使 得 一 个 模块 像 脚本 一 样 运行 。 而 无 论 以 何 种 方式 加 载 ， 
当 在 包 的 内 部 运行 脚本 的 时 候 ， 包 相关 的 结构 信息 都 会 对 和 失 ， 默 认 当 
前 脚本 所 在 的 位 置 为 模块 在 包 中 的 顶层 位 置 ， 因 此 便 会 抛 出 异常 。 如 
果 确 实 需 要 将 模块 当 作 脚本 一 样 运行 ， 解 决 方法 之 一 是 在 包 的 顶层 目 
录 中 加 入 参数 -m 运 行 该 脚本 ， 上 例 中 如 有 果 要 运行 脚本 mod1.py 可 以 在 
app 所 在 的 目录 的 位 置 输入 Python -m app.sub1l.mod1。 男 一 个 解决 这 个 
问题 的 方法 是 利用 Python2.6 在 模块 中 引入 的 _package 属性， 设置 
_package 之后， 解释 器 会 根据 _package ”和 name_ 的 值 来 确定 
包 的 层次 结构 。 上 面 的 例子 中 如 采 将 mod1.py 修 改 为 以 下 形式 便 不 会 出 
现在 包 结 构 内 运行 模块 对 应 的 脚本 时 出 错 的 情况 了 。 


if name == "” main ”and package__ is None : 
import sys 
Import os.path 
sys.path[0] = os.path.abspath("./../../") 
print sys.path[0] 
import app.sub1 


package = Str('app.sub1') 
from . import string 


相 比 于 absolute import，relative import 在 实际 应 用 中 反馈 的 问题 较 
多 ， 因 此 推荐 优先 使 用 absolute import。absolute import 可 读 性 和 出 现 问 
题 后 的 可 跟 路 性 都 更 好 。 当 项 目的 包 层 次 结构 较为 复杂 的 时 候 ， 显 式 
relative import 也 是 可 以 接受 的 ， 由 于 命名 冲突 的 原因 以 及 语义 模糊 等 
原因 ， 不 推荐 使 用 隐 式 的 relative import， 并 且 它 在 Python3 中 已 经 被 移 
除 。 


建议 21: i+=1 不 等 于 ++i 


对 于 对 Python 语言 的 每 个 细 世 了解 得 不 是 那么 清楚 ， 而 恰好 又 有 
其 他 语言 背景 的 开发 人 员 ， 很 有 可 能 写 出 如 下 类 似 的 代码 : 


i=0 
mylist = [1,2,3,4,5,6] 
while i < len(mylist): 
print mylist[i] 
十 二 


运行 这 段 代码 会 有 什么 问题 ? 也 许 你 会 说 : 抛 出 语法 错误 。 能 说 
出 这 个 答案 的 至 少 知道 Python 中 十 不 文 持 ++i 操 作 的 。 但 输出 果真 如 此 
吗 ? 非 也 ， 这 段 程序 不 会 抛 出 任何 语法 错误 ， 却 会 无 限 循 环 地 输出 1。 
原因 是 什么 呢 ? 因为 Python 解释 右 会 将 ++i 操 作 解 释 为 +(+D)， 其 中 + 表 
示 正 数 符号 。 对 于 --i 操 作 也 是 类 似 。 


>>> +1 
1 
>>> ++1 


1 
>>> ++++1 
1 


因此 你 需要 明日 ++i 在 Python 中 语法 上 是 合法 的 ， 但 并 不 是 我 们 理 
解 的 通常 意义 上 的 目 增 操作 。 


建议 22: 使 用 with 自动 关闭 资源 


来 做 个 位 单 的 试验 ， 观 察 一 下 发 生 的 现象 。 在 Python 解 释 咒 中 输 
入 下 面 两 行 代码 ， 会 有 什么 情况 发 生 呢 ? 


>>> f = open('test.txt', 'w') 
>>> f.write("test") 


答案 是: 在 解释 研 所 在 的 目 孙 下 生成 了 一 个 文件 testtxt， 并 且 在 
里 面 号 入 了 字符 串 test， 对 吗 ? 事实 真相 是 的 确 生成 了 一 个 文件 ， 但 
其 内 容 为 空 ， 并 没有 写 入 任何 字符 串 。 这 个 一 个 简单 得 不 能 再 简单 的 
问题 ， 相 信 不 用 多 说 你 已 经 知道 症结 所 在 了 。 


对 文件 操作 完成 后 应 该 立即 关闭 它 们 ， 这 是 一 个 和 常识。 我 们 都 知 
道 需要 这 么 做 ， 在 很 多 编程 语言 中 都 会 强调 这 个 问题 ， 因 为 打开 的 文 
件 不 仅 会 占用 系统 资源 ， 而 且 可 能 影响 其 他 程序 或 者 进程 的 操作 ， 长 
会 导致 用 户 期 望 与 实际 操作 结果 不 一 人 至。 但 实际 应 用 中 真相 往往 
征 : 即使 我 们 心中 记得 这 个 原则 ， 但 仍然 可 能 会 起 记 关闭 它 。 为 什 
么 ? 因为 编程 人 员 会 把 更 多 的 精力 和 注意 力 放 在 对 具体 文件 内 容 的 操 
作 和 处 理 上 ; 或 者 设计 的 正常 流程 是 处 理 完毕 关闭 文件 ， 但 结果 程序 
执行 过 程 中 发 生 了 异常 导致 天 闭 文 件 的 代码 没有 被 执行 到 。 也 许 你 会 
说 ， 还 有 try..finally 块 。 对 ! 这 十 一 种 比较 古老 的 方法 ， 但 Python 提供 
了 一 种 更 为 简单 的 解决 方案 with 语 句 。with 语 句 的 语法 为 : 


with 
表达 式 [ as 


标 ] 
代码 块 


with 语句 文 持 肯 套 ， 文 持 多 个 with 子 句 ， 它 们 两 者 可 以 相互 转 
换 。“with exprl as el , expr2 as e2” 与 下 面 的 舱 套 形式 等 价 : 


with exprl as ei: 
with expr2 as e2: 


with 语句 的 使 用 非常 简单 ， 本 节 开 头 的 例子 改 用 with 语句 能 够 保 
证 当 写 操作 执行 完毕 后 目 动 关闭 文件 。 


>>> with open('test.txt','w') as f: 
计 介 f.write("test") 


with 语 句 可 以 在 代码 块 执行 完毕 后 还 原 进 入 该 代码 块 时 的 现场 。 
包含 有 with 语 句 的 代码 块 的 执行 过 程 如 下 : 

1) 计算 表达 式 的 值 ， 返 回 一 个 上 下 文 管理 器 对 象 。 

2) 加 载 上 下 文 管理 器 对 象 的 _exit_() 方 法 以 备 后 用 。 

3) 调用 上 下 文 管理 器 对 象 的 _enter__() 方 法 。 


4) 如 果 with 语 句 中 设置 了 目标 对 象 ， 则 将 _enter _() 方 法 的 返回 
值 赋值 给 目标 对 象 。 


5) 执行 with 中 的 代码 块 。 


6) 如 果 步 又 5 中 代码 正常 结束 ， 调 用 上 下 文 管理 器 对 象 的 
_exit (方法 ， 其 返回 值 直接 忽略 。 


7) 如 果 步 又 5 中 代码 执行 过 程 中 发 生 异 常 ， 调 用 上 下 文 管理 器 对 
象 的 _exit _0 方 法， 并 将 异常 类 型 、 值 及 traceback 信 息 作 为 参数 传递 给 


exit 方法。 如果 _exit 0 返回 值 为 false， 则 异常 会 被 重新 抛 出 ，; 
如 果 其 返回 值 为 mue， 异 常 被 挂 起 ， 程 序 继续 执行 。 


在 文件 处 理 时 使 用 with 的 好 处 在 于 无 论 程序 以 何 种 方式 跳出 with 
块 ， 总 能 保证 文件 被 正确 关闭 。 实 际 上 它 不 仅仅 针对 文件 处 理 ， 针 对 
其 他 情景 同样 可 以 实现 运行 时 环境 的 清理 与 还 原 ， 如 多 线程 编程 中 的 
锁 对 象 的 管理 。with 的 神奇 实际 得 益 于 一 个 称 为 上 下 文 管理 器 
(context manager) 的 东西 ， 它 用 来 创建 一 个 运行 时 的 环境 。 上 下 文 
管理 器 是 这 样 一 个 对 象 ， 它 定义 程序 运行 时 需要 建立 的 上 下 文 ， 处 理 
程序 的 进入 和 退出 ， 实 现 了 上 下 文 管理 协议 ， 即 在 对 象 中 定义 
enter_(0 和 _ exit_ (0) 方 法 。 其 中 : 


enter_(0: 进入 运行 时 的 上 下 文 ， 返 回 运行 时 上 下 文 相 关 的 对 
象 ，with 语 句 中 会 将 这 个 返回 值 绑 定 到 目标 对 象 。 如 上 面 的 例子 中 会 
将 文件 对 象 本 身 返 回 并 绑 定 到 目标 f。 


* exit (exception_type,exception_value,traceback): 退出 运行 时 的 
上 下 文 ， 定义 在 块 执行 (或 终止 ) 之 后 上 下 文 管理 器 应 该 做 什么 。 它 
可 以 处 理 异常 、 清 理 现场 或 者 处 理 with 块 中 语句 执行 完成 之 后 需要 处 
理 的 动作 。 


实际 上 任何 实现 了 上 下 文 协议 的 对 象 都 可 以 称 为 一 个 上 下 文 管理 
右 ， 文 件 也 是 实现 了 这 个 协议 的 上 下 文 管理 器 ， 它 们 都 能 够 与 with 语 
人 句 兼 容 。 文 件 对 象 的 _enter 和 ”exit 属性 如 下 : 


>>> f. enter _ 
<built-in method __enter__ of file object at 0X029F0700> 
>>> f. exit _ 
<built-in method _ exit _ of file object at Ox029F0700> 


用 户 也 可 以 定义 自己 的 上 下 文 管理 器 来 控制 程序 的 运行 ， 只 需要 
实现 上 下 文 协 议 便 能 够 和 with 语 句 一 起 使 用 。 


>>> class MyContextManager (object): 
ee def _ enter_ (self):# 
实现 _enter_ 

法 


print "entering..." 
def _ exit_ (self,exception_ type, exception value, traceback): 
print "Jeaving..." 
if exception_type is None: 
print "no exceptions!" 
return False 
elif exception_type is ValueError: 
print "Value error!!!" 
return True 
else: 
print "other error" 
return True 
>>> 
>>> with MyContextManager(): 
print "Testing..." 
raise(ValueError) 


entering... 

Testing... 

leaving... 

Value error!!! 

>>> 

>>> with MyContextManager(): 
ee print "Testing..." 


entering... 
Testing... 
leaving... 

no exceptions! 
>>> 


为 上 下 文 管理 器 主要 作用 于 资源 共享 ， 因 此 在 实际 应 用 中 
_enter) 和 _ exit0 方法 基本 用 于 资源 分 配 以 及 释放 相关 的 工作 ， 
如 打开 /关闭 文件 、 异 常 处理、 上 断 开 流 的 连接 、 锁 分 配 等 。 为 了 更 好 地 
辅助 上 下 文 管理 ，Python 还 提供 了 contextlib 模 块 ， 该 模块 是 通过 
Generator 实 现 的 ，contextlib 中 的 contextmanager 作 为 装饰 器 来 所 供 一 种 
针对 函数 级 别 的 上 下 文 管理 机 制 ， 可 以 直接 作用 于 函数 /对 象 而 不 用 去 
天 / 心 。”enter()” 和 ”exit() 方法 的 具体 实现 。 关 于 contextlib 更 多 内 容 
读者 可 以 参考 网 页 http://docs.python.org/2/library/contextlib.html 。 


建议 23: 使 用 else 子 句 简 化 循环 (异常 处 
理 ) 


有 其 他 编程 语言 经 验 的 程序 员 接 触 到 Python 时 ， 对 于 它 无 所 不 在 
的 else 往 往 感到 非常 惊讶 。 在 Python 中 ， 不 仅 分 文 语句 有 else 子 句 ， 而 
且 循 环 语句 也 有 ， 其 至 连 异常 处 理 也 有 。 首先 来 看 看 人 循环 语句 中 的 
else， 看 看 它们 的 语法 。 


while_stmt ::= "while" expression ":" suite 
'else" ":" suite 
for_stmt ::= "for" target_ list "in" expression_list ":" suite 
["else" ":" suitel] 


从 语法 定义 中 可 以 看 到 如 果 没 有 ["else" ":" suite] 这 一 块 ，Python 的 
循环 语句 跟 大 多 数 语言 并 无 二 致 。 要 谈 else 子 句 ， 必 须 先 从 Python 从 其 
他 语言 中 借鉴 的 语义 相同 的 break 语 名 说 起 ， 因 为 else 子 句 提供 了 隐 售 
的 对 循环 是 否 由 break 语 句 引 发 循环 结束 的 判断 。 先 来 看 一 个 没有 应 用 
else 了 于 人 句 的 例子 : 


def print_prime(n): 
for i in xrange(2, n): 
found = True 
for j in xrange(2, i): 
if i % j == 0: 
found = False 
break 
if found: 
print '%d is a prime number'%i 


这 是 一 个 查找 素数 的 简单 实现 ， 可 以 看 到 我 们 借助 了 一 个 标志 量 
found 来 判断 是 循环 结束 是 不 是 由 break 语 名 引起 的 。 如 果 对 else 凑 加 利 
用 ， 代 码 可 以 人 简洁 得 多 。 来 看 下 面 的 具体 实现 : 


def print_prime2(n) : 
for i in xrange(2, n): 
for j in xrange(2, i): 
if i % j == 0: 


else: 
print '%d is a prime number'%i 


当 循 环 “ 目 然 ” 终 结 (循环 条 件 为 假 ， 时 else 从 句 会 被 执行 一 次 ， 而 
当 循环 是 由 break 语 句 中 断 时 ，else 子 句 束 不 被 执 行 。 与 for 语 句 相 似 ， 
while 语 句 中 的 else 子 句 的 语意 钙 一 样 的 ，else 块 在 循环 正常 结束 和 循环 
条 件 不 成 立时 被 执行 。 


与 C/C++ 等 较为 “ 老 土 * 的 语言 相 比 ，else 子 句 使 程序 员 的 生产 力 和 
代码 的 可 读 性 都 得 到 了 提高 ， 所 以 建议 大 家 多 使 用 else， 让 程序 变 得 
更 加 Pythonic。 


在 Python 的 异常 处 理 中 ， 也 提供 了 else 子 句 语 法 ， 这 颗 “ 语 法 糖 * 的 
意义 跟 循 环 语句 中 的 else 是 相似 的 :try 块 没有 抛 出 任何 异常 时 ， 执 行 
else 块 。 按 惯例 先 看 一 下 如 下 语法 定义 : 


try_stmt := tryl_stmt | try2_stmt 
tryi_stmt ::= "try" ":" suite 
("except" [expression [("as"” | ",") target]] ":" suite)+ 
["else" ":" suite 
["finally" ":" suitel] 
try2_stmt ::= "try" " suite 
"finally" ":" suite 


从 try1_stmt 的 定义 中 可 以 看 到 ， Python 的 异常 处 理 中 有 一 种 try- 
except-else-finally 形 式 。 下 面 的 例子 是 把 数据 写 入 文件 中 。 


def save(db, obj): 
try: 
# save attr1 
db.execute('a sql stmt', obj.attr1) 
# save attr2 
db.execute('another Sql stmt', obj.attr2) 
except DBError: 
db.rollback() 
else: 
db.commit() 


如 有 宁 没 有 else 子 句 ， 融 像 前 文中 关于 循环 的 例 于 一样， 需要 引入 


- 旱 . 
一 个 标志 变量 。 


def save(db, obj): 
some_error_occurred = False 
try: 
# save attr1 
db.execute('a sql stmt', obj.attr1) 
# save attr2 
db.execute('another Sql stmt', obj.attr2) 
except DBError: 
db.rollback() 
some_error_occurred = True 
if not some_error_occurred: 
db.commit() 


这 样 代码 就 变 得 复杂 了 “。 在 Python 中 还 有 不 少 语法 都 是 致力 于 让 
程序 员 可 以 编写 更 加 简明、 更 接近 目 然 语言 语义 的 代码 ， 比 如 in 和 
with 语句 (将 在 其 他 章 中 讲述 相关 用 法 ， 这 也 证 明 充分 地 学 习 手 册 
中 的 Language Reference 非 常 有 必要 。 


建议 24: 巡 循 异 第 处 理 的 儿 点 基本 原则 


现实 世界 是 不 完美 的 ， 意 外 和 异常 会 在 不 经 意 间 发 生 ， 从 而 使 我 
们 的 生活 不 得 不 暂时 偏离 正常 轨道 ， 软 件 世 界 也 是 如 此 。 或 因为 外 部 
原因 ， 或 因为 内 部 原因 ， 程 序 会 在 某 些 条 件 下 产生 异常 或 者 错误 。 为 
了 提高 系统 的 健壮 性 和 用 户 的 友好 性 ， 需 要 一 定 的 机 制 来 处 理 这 种 情 
况 。 跟 其 他 很 多 编程 语言 一 样 ，Python 也 提供 了 异常 处 理 机 制 。Python 
中 和 常用 的 异常 处 理 语法 是 try、except、else、finally， 它 们 可 以 有 多 种 组 
合 ， 如 try-except (一 个 或 多 个 ) ，try -except-else; try -finally 以 及 try - 
except-else-finally 等 。 语 法 形式 如 下 : 


try: 
<statements> # Run this main action first 
except <name1>: 

<statements> # 
当 try 
中 发 生 name1 
的 异常 时 人 处理 
except (name2, name3): 
<statements> # 


me3 
中 的 某 一 个 异常 的 时 候 处 理 
except <name4> as <data>: 
<statements> # 
当 try 
中 发 生 name4 
的 异常 时 处 理 ， 并 获取 对 应 实例 
except: 
<statements> # 
其 他 异常 发 生 时 处 理 
else 
<statements> # 
没有 异常 发 生 时 执行 
finally: 
<statements> # 
不 管 有 没有 异常 发 生 都 会 执行 


最 为 全 面 的 组 合 try -except-else-finally 异 常 处 理 的 流程 如 图 3-1 所 


| try 代 码 块 | 

a 
搜索 except 语 句 对 应 的 执行 else 中 的 语句 
exceptions 


D else 中 有 异常 发 生 ? ¥ 


向 上 一 层 抛 出 异常 ， 如 处 理 不 当 可 
导致 前 面 抛 出 的 异常 丢失 


图 3-1 异常 处 理 的 流程 图 
异常 处 理 通 常 需 要 遵循 以 下 几 点 基本 原则 : 


1) 注意 异常 的 粒度 ， 不 推荐 在 try 中 放 入 过 多 的 代码 。 异 常 的 粒度 
征 人 为 划分 的 ， 在 处 理 异 常 的 时 候 最 好 保持 异常 粒度 的 一 致 性 和 合理 
性 ， 同 时 要 避免 在 tty 中 放 入 过 多 的 代码 ， 即 避免 异常 粒度 过 大 。 在 try 
中 放 入 过 多 的 代码 市 来 的 问题 是 如 果 程序 中 抛 出 异常 ， 将 会 较 难 定 
位 ， 给 debug 和 修复 带 来 不 便 ， 因 此 应 尽量 只 在 可 能 抛 出 异常 的 语句 块 
前 面 放 入 try 语 句 。 


2) 谨慎 使 用 单独 的 except 语 句 处 理 所 有 异常 ， 最 好 能 定位 具体 的 
异常 。 同 样 也 不 推荐 使 用 except Exception 或 者 except StandardError 来 捕 
获 异 常 。 

在 try 后 面 单 独 使 用 except 语 句 可 以 捕获 所 有 的 异常 ， 从 表面 上 看 这 
似乎 是 个 不 错 的 做 法 ， 但 实际 上 会 市 来 什么 问题 呢 ? 来 看 以 下 简单 的 
例子 : 


import sys 
try: 
b =0 


print a/b 


except: 
sys.exit("ZeroDivisionError:Can not division zero") 


程序 运行 以 打印 *ZeroDivisionError: Can not division zero” 结 
这 会 让 我 们 以 为 是 发 生 了 除数 为 零 的 错误 ， 但 实际 情况 是 因为 a 在 使 用 
前 并 没有 定义 ， 程 序 引 发 了 NameError。 而 由 于 单独 的 except 语 句 的 使 
用 ， 真 实 的 错误 往往 被 掩盖 。 对 上 述 代 码 修改 如 下 : 


import sys 
try: 
print a 
b =0 
print a/b 
except ZeroDivisionError: 
sys.exit("ZeroDivisionError:Can not division zero") 


运行 程序 输出 NameError 异 常 如 下 : 


Traceback (most recent call last): 
File "test.py", line 3, in <module> 
print a 
NameError: name 'a' is not defined 


单独 使 用 except 会 捕获 包括 SystemExit，KeyboardInterrupt 等 在 内 的 
各 种 异常 ， 从 而 掩盖 程序 真正 发 生 异 常 的 原因 ， 给 debug 造 成 一 定 的 迷 


惑 性 。 因 此 需要 庆 慎 使 用 ， 最 好 能 在 except 语 句 中 定位 具体 的 异常 。 如 
果 在 某 些 情况 下 不 得 不 使 用 单独 的 except 语 句 ， 最 好 能 够 使 用 raise 语 名 
将 异 音 抛 出 同上 属 传 递 。 


3) 注意 异常 捕获 的 顺序 ， 在 合适 的 层次 处 理 异常 。Python 中 内 建 
异常 以 类 的 形式 出 现 ，Python2.5 后 异常 补 迁 移 到 新 式 类 上 ， 启 用 了 一 
个 新 的 所 有 异常 之 母 的 BaseException 类 ， 内 建 异 党 有 一 定 的 继承 结 
构 ， 如 UnicodeDecodeError 继 承 目 UnicodeError， 而 其 继承 链 结 构 为 
UnicodeDecodeError -->UnicodeError -->ValueError -->Exception -- 


>BaseException， 如 图 3-2 所 示 。 


+— UnmcodeError 


+— UnicodeDecodeError 


+— UmcodeEncodeFrror 


+— Unicode TranslateError 


图 3-2 ”UnicodeDecodeError 继 承 结构 示意 图 


用 户 也 可 以 继承 自 内 建 异常 构建 自己 的 异常 类 ， 从 而 在 内 建 类 的 
继承 结构 上 进一步 延伸 。 在 这 种 情况 下 异常 捕获 的 顺序 显得 非常 重 
要 。 为 了 更 精确 地 定位 错误 发 生 的 原因 ， 推 荐 的 方法 是 将 继承 结构 中 
子 类 异常 在 前 面 的 except 语 句 中 擅 出 ， 而 父 类 异常 在 后 面 的 except 语 句 
抛 出 。 这 样 做 的 原因 是 当 try 块 中 有 异常 发 生 的 上 时候， 解释 絮 根 据 except 
声明 的 顺序 进行 匹配 ， 在 第 一 个 匹配 的 地 方便 立即 处 理 该 异常 。 如 果 
将 层次 较 高 的 异常 类 在 前 面 进行 捕获 ， 往 往 不 能 精确 地 定位 异常 发 生 
的 具体 位 置 。 如 下 例 中 ValueError 声 明 在 前 而 UnicodeDecodeError 在 
后 ， 当 抛 出 UnicodeDecodeError 异 常 的 时 候 ， 由 于 它 是 ValueError 的 子 
类 ， 在 ValueError 处 便 直 接 被 捕获 了 ， 打 印 出 消 轧 “ValueError 
occured”， 而 真正 的 异常 UnicodeDecodeError 却 被 悄然 掩盖 。 


>>> try: 
Pe raise UnicodeDecodeError("pdfdocencoding","a",2,-1,"not support decoding 
.. except ValueError:#ValueError 
为 UnicodeDecodeError 
的 父 类 ， 捕 获 异 常 时 却 在 前 本 
ry print "ValueError occured" 
... except UnicodeDecodeError,e: 
' print e 


ValueError occured 
>>> 


因此 ， 异 常 捕获 的 顺序 非常 重要 ， 同 时 异常 应 该 在 适当 的 位 置 被 
处 理 ， 一 个 原则 束 是 如 果 异 党 能 够 在 个 捕获 的 位 置 被 处 理 ， 那 么 应 该 
及 时 处 理 ， 不 能 处 理 也 应 该 以 合适 的 方式 同上 层 抛 出 。 明 到 异常 不 论 
好 歹 束 癌 上 层 抛 出 是 非常 不 明智 的 。 癌 上 层 传递 的 时 候 需要 警惕 异常 
被 丢失 的 情况 ， 可 以 使 用 不 市 参数 的 raise 来 传递 。 


try: 
some_code() 
except: 
revert_stuff() 
raise 


4) 使 用 更 为 友好 的 异常 信息 ， 遵 守 异 党 参数 的 规范 。 软 件 最 终 是 
为 用 户 服务 的 ， 当 有 异 稼 发 生 的 时 候 ， 腊 音信 息 清 晰 友好 与 否 直接 关系 
到 用 户 体验 。 通 毅 来 说 有 两 类 异 钊 阅读 着: 使 用 软件 的 人 和 开发 软件 
的 人 ， 即 用 户 和 开发 着 。 对 于 用 户 来 说 关注 更 多 的 是 业务 。 先 来 看 一 


段 异 音信 息 : 


Traceback (most recent call last): 
File "test.py", line 4, in <module> 
print ItempriceTable['a'] 
KeyError: 'a! 


如 果 将 这 段 信息 给 一 个 没有 软件 编程 背景 的 人 看 ， 他 肯定 会 觉得 
如 读 天 书 一 般 ， 对 于 用 户 这 并 不 是 一 种 较为 友好 的 做 法 ， 在 面 对 用 户 
的 时 候 异常 信息 应 该 以 较为 清晰 和 明确 的 方式 显示 出 来 。 如 下 例 中 当 
查找 一 个 不 在 列表 的 水 果 价 格 的 时 候 给 出 相关 的 提示 信息 会 比 直接 抛 
出 KeyError 信 息 要 友好 得 多 。 


import sys 
import traceback 
ItempPriceTable = {"apple":'3.5',"orange":'4',"cheery":"20", "mango":"8"} 
def getprice(itemname): 
try: 
price = ItemPriceTable[itemname] 
return price 
except KeyError: 
print "%s can not find in the price table,you should input another kind of 
fruit,." 
% sys.exc_value # 
显示 异常 相关 的 提示 信息 
while 1: 
itemname = raw_input("Enter the fruit name to get the price or press x to 
exit: ") 
If itemname == "x": 
break 
price = getprice(itemname) 
if price != None: 
print "%s's price is $%s/kg" % (itemname, price) 


此 外 ， 如 采 内 建 异 常 类 不 能 满足 需求 ， 用 户 可 以 在 继承 内 建 异 常 
的 基础 上 针对 特定 的 业务 逻辑 定义 自己 的 异常 类 。 但 无 论 是 内 建 异 常 


在 传递 异常 参数 的 时 候 都 需要 遵守 异常 


还 是 用 户 定 义 的 异常 类 ， 


类 ， 
参数 规范 。 


建议 25: 避免 finally 中 可 能 发 生 的 陷阱 


无 论 try 语 句 中 是 否 有 腊 常 抛 出 ，finally 语 句 总 会 被 执行 。 由 于 这 
个 特性 ，finally 语 名 经常 被 用 来 做 一 些 清 理工 作 ， 如 打开 一 个 文件 ， 
抛 出 异常 后 在 finally 语 句 中 对 文件 句柄 进行 关闭 等 。 


但 使 用 finally 时 ， 也 要 特别 小 心 一 些 陷阱 。 先 来 看 以 下 例子 : 


def FinallyTest(): 
print 'i am starting------ ' 
while True: 
try: 
print "I am running" 
raise IndexError("r")# 


抛 出 异 IndexError 
如 党 
站 
except NameError,e: 
print 'NameError happended %s',e 
break 
finally: 
print 'finally executed ' 
break #finally 
语句 中 有 break 


语句 
FinallyTest() 


上 上 述 程 序 输出 结 来 为 : 


i am starting------ 
I am running 
finally executed 


上 面 的 例子 中 try 代 码 块 抛 出 了 IndexError 异 常 ， 但 在 except 块 却 没 
有 对 应 的 异常 声明 。 按 常理 该 异常 会 同上 层 抛 出 ， 可 是 程序 输出 却 没 
有 提示 任何 异常 发 生 ，ImndexError 异 党 被 丢失 。 这 是 什么 原因 呢 ? 当 try 
块 中 发 生 异 常 的 了 时候 ， 如 果 在 except 语 句 中 找 不 到 对 应 的 异常 处 理 ， 
异常 将 会 被 临时 保存 起 来 ， 当 finally 执 行 完 毕 的 时 候 ， 临 时 保存 的 异 
常 将 会 再 次 被 抛 出 ， 但 如 果 finally 语 句 中 产生 了 新 的 异常 或 者 执行 了 


return 或 者 break 语 句 ， 那 么 临时 保存 的 异常 将 会 被 丢失 ， 从 而 导致 异 
党 屏蔽。 这 古 finally 使 用 时 需要 小 心 的 第 一 个 陷阱 。 再 来 看 男 外 一 个 
例 寺 * 


def ReturnTest(a): 
try: 
if a <=0: 
raise ValueError("data can not be negative") 
else: 
return a 
except ValueError as e: 
print e 
finally: 
print("The End!") 
return -1 
print ReturnTest(0) 
print ReturnTest(2) 


思考 一 下 这 里 程序 ReturnTest(0) 和 ReturnTest(2) 的 返回 值 是 什么 ? 
答案 是 : -1，-1°。 对 于 第 一 个 调用 ReturnTest(0) 在 抛 出 ValueError 异 常 
后 直接 执行 fnally 语 名 返回 值 为 -1， 这 点 比较 容易 理解 ;那么 对 于 第 二 
个 调用 ReturnTest(2) 为 什么 也 返回 -1 呢 ? 这 是 因为 a>0， 会 执行 else 分 
支 ， 但 由 于 存在 finally 语 句 ， 在 执行 else 语 句 的 return a 语句 之 前 会 完 执 
行 finally 中 的 语句 ， 此 时 由 于 finally 语 句 中 有 return -1， 程 序 直接 返回 
了 ， 所 以 永远 不 会 返回 a 对 应 的 值 2。 此 为 使 用 finally 语 句 需 要 注意 的 
第 二 个 陷阱 。 在 实际 应 用 程序 开发 过 程 中 ， 并 不 推荐 在 finally 中 使 用 
return 语 句 进 行 返 回 ， 这 种 处 理 方式 不 仅 会 带 来 误解 而 且 可 能 会 引起 非 
常 严 重 的 错误 。 


建议 26: 深入 理解 None， 正 确 判断 对 象 是 
否 为 空 


在 学 习 Python 的 过 程 中 ， 可 能 曾经 有 人 写 过 以 下 代码 用 来 判断 变 


上 忆 . < 
量 a 征 合 为 至 : 


if a is not None: #value is not empty 
Do something 


else #value is empty 


Do some other thing 


那么 这 样 写 有 什么 问题 呢 ? 先 来 了 解 一 下 Python 中 哪些 形式 的 数 
据 为 空 。Python 中 以 下 数据 会 当做 空 来 处 理 : 


:任何 形式 的 数值 类 型 零 ， 如 0、0L、0.0、0j。 
空 的 序列 ， 如 "、 0、[。 
` 空 的 字典 ， 如 {}。 


: 当 用 户 定义 的 类 中 定义 了 nonzero() 方 法 和 len() 方 法 ， 并 且 该 方法 
返回 整数 0 或 者 布尔 值 False 的 时 候 。 


其 中 销量 None 的 特殊 性 体现 在 它 既 不 是 0、EFalse， 也 不 是 空 字符 
串 ， 它 就 是 一 个 空 值 对 象 。 其 数据 类 型 为 NoneType， 遵 循 单 例 模式 ， 


是 唯一 的 ， 因 而 不 能 创建 None 对 象 。 所 有 赋值 为 None 的 变量 都 相等 ， 
并 且 None 与 任何 其 他 非 None 的 对 象 比 较 结 果 都 为 False。 


>>> Id(None ) 

505555980 

>>> None == 0 #None 

不 为 9 

False 

>>> None == False #None 

也 不 是 False 

False 

>>> None == "" #None 
更 不 是 空 字符 串 
False 

>>> a = None 

>>> id(a) 

505555980 

>>> b = None 

>>> a == b # 
任何 赋值 为 None 

的 对 象 都 相同 

True 
>>> list1 = [] 

>>> if list1 is not None: 
QD) 判断 list 


print "list is:",1ist1 
print "list is emptyn 
list is: 9 
输出 结果 表示 上 面 的 逻辑 认为 ]ist 
不 为 空 


上 上 面 的 例子 中 对 列表 是 否 为 空 的 判断 显然 不 符合 我 们 的 要 求 ， 
为 除非 a 被 赋值 为 None， 否 则 else 中 的 语句 永远 不 会 被 执行 。 正 确 的 形 
Ful Ks 


if list #value is not empty 


是 否 为 空 的 正确 方式 
Do something 

else: #value is empty 
Do some other thing 


标注 人 9) 执 行 过 程 中 会 调用 内 部 方法 _nonzero_() 来 判断 变量 list1 是 
否 为 至 并 返回 其 结果 。 下 面 介绍 一 下 _nonzero__(0) 方 法 : 该 内 部 方法 
用 于 对 上 自身 对 象 进 行 空 值 测试 ， 返 回 0/1 或 True/False。 如 果 一 个 对 象 没 


有 定义 该 方法 ，Python 将 获取 _len_() 方 法 调用 的 结果 来 进行 判断 。 
_len 0 返回 值 为 0 则 表示 为 空 。 如 果 一 个 类 中 有 既 没 有 定义 _len_ (0) 方 
法 也 没有 定义 _nonzero_0 方 法 ， 该 类 的 实例 用 if 判 断 的 结果 都 为 


True 。 


def _nonzero (self): # 
类 中 实现 了 __nonzero__ 


法 


print'testing A,_nonzero_ () 
return True 
def _ len__(self): 
print "get length" 
return False 


if A():# 
该 语句 执行 的 时 候 会 自动 调用 __nonzero__ 
(0 方法 
print 'not empty' 


else: 
print "empty" 


程序 输出 如 下 : 


testing A._nonzero__() 
not empty 


建议 27: 连接 子 从 串 应 优先 使 用 join 而 不 


是 十 


字符 种 处 理 在 大 多 数 编程 程序 语言 中 都 不 可 避免 ， 字 符 串 的 连接 
也 是 在 编程 过 程 中 经 党 需要 面 对 的 问题 。Python 中 的 字符 种 与 其 他 一 些 
程序 语言 如 C++、Java 有 一 些 不 同 ， 它 为 不 可 变 对 象 ， 一 旦 创建 便 不 能 
改变 ， 它 的 这 个 特性 直接 影响 到 Python 中 字符 串 连 接 的 效率 。 我 们 首先 
来 看 单 见 的 两 种 字符 绅 连 搂 方 法 。 


1) 使 用 操作 符 + 连 接 字符 串 的 方法 如 下 : 


>>> str1,str2,str3 = 'testing ','string ','concatenation ' 
>>> stri+str2+str3 

"testing string concatenation ' 

>>> 


2) 使 用 join 方法 连接 字符 串 的 方法 如 下 : 


>>> str1,str2,str3 = 'testing ','string ','concatenation ' 
>>> ''.join([stri,str2,str3]) 

'testing string concatenation ' 

>>> 


思考 这 么 一 个 问题 ， 上 述 两 种 字符 串 连接 的 方法 除了 使 用 形式 上 
的 不 同 还 有 其 他 区 别 吗 ? 性 能 上 会 不 会 有 所 差异 呢 ? 来 看 下 面 这 个 测 
试 例子 : 


Import timeit 


## 

生成 测试 所 需要 的 字符 数组 

strlist=["it is a long value string will not keep in memory" for n in 
range(100000)] 

#100000 

为 字符 串 连 接 的 数目 ， 下 面 对 应 的 测试 数据 ， 每 次 需要 修改 

def join test(): 


return ''.join(strlist) # 


使 用 join 
方法 连接 strlist 
中 的 元 素 并 返回 字符 串 
def plus_ test(): 
result = "" 
for i,v in enumerate(strlist): 
result= result+ v # 
使 用 + 


进行 字符 串 连 接 

return result 
if name == ' main _': 
jointimer = timeit.Timer("join_test()","from __main _ import join_ test") 
print jointimer.timeit(number = 100) 
plustimer = timeit.Timer("plus_test()","from __main _ import plus_test") 
print plustimer.timeit(number = 100) 


给 上 面 的 程序 传 入 一 组 测试 参数 (测试 参数 为 3，10，100， 
1000，10000，100000; 分 别 表示 每 一 次 测试 所 要 连接 的 字符 串 的 数 
量 ) ， 程 序 用 于 测试 join_testO 和 plus_test() 这 两 个 方法 在 字符 串 连 接 规 
模 改变 时 所 消耗 时 间 的 变化 。 测 试 结果 记录 如 表 3-1 所 示 。 


连接 的 字符 串 数量 plus_test 运行 时 间 
3 0.000132909158616 
10 0.000602548533116 
100 0.00357801180055 
1000 0.030371768798 


10000 0.0343671477735 0.379505083573 
100000 0.441415223204 187.267786021 


表 3-1 join_test0 和 plus_testO 连 接 字 符 串 所 耗 时 间 记 录 


表 3-1 可 以 用 图 3-3 所 示 的 X-Y 图 表示 ， 其 中 X 轴 表示 所 要 连接 的 字 
符 吕 的 数量 ，Y 轴 表示 消耗 的 时 间 。 


40000 


35000 

30000 
号 25000 
vO 


—@® join test 


a 
20000 
站 
加 15000 
10000 
$5000 


~ plus test 


3 10 100 1000 10000 100000 


String Size 


图 3-3 ”join_test() 和 plus_test() 耗 时 比较 图 (运行 时 间 扩 大 10000 售 ) 


从 分 析 测 斌 结果 图 表 我 们 不 难 发 现 ， 分 别 使 用 join(0) 方 法 和 使 用 + 操 
作 符 来 连接 字符 串 ，join() 方 法 的 效率 要 高 于 + 操作 符 ， 特 别 是 字符 串 规 
模 较 大 的 时 候 ，join0 方 法 的 优势 更 为 明显 (如 连接 数 为 100000 的 时 
候 ， 两 者 耗 时 相差 上 百倍 ) 。 造 成 这 种 差别 的 原因 在 哪里 呢 ? 我 们 来 
探讨 一 下 。 当 用 操作 符 + 连 接 字符 串 的 时 候 ， 由 于 字符 串 是 不 可 变 对 
象 ， 其 工作 原理 实际 上 是 这 样 的 ; 如 果 要 连接 如 下 字符 串 : 
S1+S2+S3+...+SN， 执 行 一 次 + 操作 便 会 在 内 存 中 申请 一 块 新 的 内 存 
空间 ， 并 将 上 一 次 操作 的 结果 和 本 次 操作 的 右 操作 数 复制 到 新 申请 的 
内 存 空间 ， 即 当 执行 S1+S2 的 时 候 会 申请 一 块 内 存 ， 并 将 S1、S2 复 制 到 
该 内 存 中 ， 依 次 类 推 ， 如 图 3-4 所 示 。 因 此 ， 在 N 个 字符 串 连 接 的 过 程 
中 ， 会 产生 N-1 个 中 间 结 果 ， 每 产生 一 个 中 间 结 果 都 需要 申请 和 复制 一 
次 内 存 ， 总 共 需 要 申请 N-1 次 内 存 ， 从 而 严重 影响 了 执行 效率 。N 越 
大 ， 对 内 存 的 申请 和 复制 的 次 数 越 多 ，+ 操 作 符 的 效率 就 越 低 。 因 此 ， 
整个 字符 连接 的 过 程 中 ， 相 当 于 S1 被 复制 N-1 次 ，S2 被 复制 N-2 次 …SN 
复制 1 次 (并 不 完全 等 同 于 S1 复 制 N-1 次 ， 因 为 后 续 复制 都 是 对 中 间 结 
果 的 复制 ) ， 所 以 字符 串 的 连接 时 间 复 杂 度 近似 为 O(n^2)。 


S1S2S3 


S1S2S83......S(N-1) 


图 3-4 ”操作 符 + 连 接 字符 串 示 意图 


而 当 用 join() 方 法 连接 字符 串 的 时 候 ， 会 首先 计算 需要 申请 的 总 的 
内 存 空间 ， 然 后 一 次 性 申请 所 需 内 存 并 将 字符 序列 中 的 每 一 个 元 素 复 
制 到 内 存 中 去 ， 所 以 join 操 作 的 时 间 复 杂 上 度 为 O(n) 。 


因此 ， 字 符 串 的 连 拔 ， 特 别 是 大 规模 字符 串 的 处 理 ， 应 该 尽量 优 
先 使 用 join 而 不 是 +。 


建议 28: 格式 化 字符 串 时 尽量 使 用 .format 
方式 而 不 是 折 


Python 中 内 置 的 % 操 作 符 和 .format 方 式 都 可 用 于 格式 化 字符 串 。 移 
来 看 看 这 两 种 具体 格式 化 方法 的 基本 语法 形式 和 篆 见 用 法 。 


% 操 作 符 根据 转换 说 明 符 所 规定 的 格式 返回 一 串 格 式 化 后 的 字符 
串 ， 转 换 说 明 符 的 基本 形式 为 : % [ 转换 标记 ][ 宽度 [. 精确 度 ] 转换 类 
型 。 其 中 各 见 的 转换 标记 和 转换 类 型 分 别 如 表 3-2 和 表 3-3 所 示 。 如 采 术 
指定 宽度 ， 则 默认 输出 为 字符 串 本 身 的 宽度 。 


表 3-2 ”格式 化 字符 串 转 换 标记 


转换 标记 解 释 
- 表示 左 对齐 
+ 在 正 数 之 前 加 上 + 
(a space) 表示 正 数 之 前 保留 空格 
二 在 八进制 数 前 面 显 示 零 ('0')， 在 十 六 进 制 前 面 显 示 '0x' 或 者 '0X 
0 表示 转换 值 若 位 数 不 够 则 用 0 填充 而 非 默认 的 空格 
~ 友人 | 
表 3-3 ”格式 化 字符 串 转 换 类 型 
转换 类 型 解 释 

c 转换 为 单个 字符 ， 对 于 数字 将 转换 该 值 所 对 应 的 ASCII 码 
S 转换 为 字符 串 ， 对 于 非 字 符 串 对 象 ， 将 默认 调用 str0 隐 数 进行 转换 
I 用 repr0 函数 进行 字符 串 转 换 
id 转换 为 带 符 号 的 十 进 制 数 
u 转换 为 不 带 符号 的 十 进 制 数 
0 转换 为 不 带 符号 的 八进制 
XXX 转换 为 不 带 符号 的 十 六 进 制 
EE 表示 为 科学 计数 法 表示 的 浮 点 数 
fF 转 成 浮 点 数 (小 数 部 分 自然 截断 ) 
gG 如 果 指 数 大 于 -4 或 者 小 于 精度 值 则 和 e 相同 ， 其 他 情况 与 了 相同 ; 如 果 指 数 大 于 -4 或 者 


小 于 精度 值 则 和 EE 相同 ， 其 他 情况 与 F 相同 


% 操 作 符 格 式 化 字符 串 时 有 如 下 几 种 常见 用 法 ; 
1) 直接 格式 化 字符 或 者 数值 。 


>>> print "your Score is %06.1f" % 9.5 
your Score is 0009.5 
>>> 


2) 以 元 组 的 形式 格式 化 。 


>>> import math 

>>> itemname = "circumference' 

>>> radius = 3 

>>> print "the %s of a circle with radius %f is %0.3f " %(itemname,radius,math.p 
i*radius*2) 

the circumference of a circle with radius 3.000000 is 18.850 

>>> 


3) 以 字典 的 形式 格式 化 。 


>>> itemdict = {'itemname':'circumference', 'radius':3,'value':math.pi*radius*2} 
>>> print "the %(itemname)s of a circle with radius %(radius)f is %(value)0.3f 
" % itemdict 

the circumference of a circle with radius 3.000000 is 18.850 

>>> 


.format 方 式 格式 化 字符 串 的 基本 语法 为 ，[[ 填 充 符 ] 对 齐 方式 ][ 符 
号 ][ 检 [0][ 宽 度 ][,][. 精 确 度 ][ 转 换 类 型 ]。 其 中 填充 符 可 以 古 除 
了 “{” 和 “}” 符 号 之 外 的 任意 符号 ， 对 齐 方式 和 符号 分 别 如 表 3-4 和 表 3-5 
所 示 。 转 换 类 型 跟 % 操 作 符 的 转换 类 型 类 似 ， 可 以 参见 表 3-3。 


表 3-4 .format 方 式 格式 化 字符 串 的 对 齐 方式 


对 齐 方式 解释 
< 表示 左 对 齐 ， 是 大 多 数 对 象 为 默认 的 对 齐 方式 
> 表示 右 对 齐 ， 数 值 默 认 的 对 齐 方式 


= 仅 对 数值 类 型 有 效 ， 如 果 有 符号 的 话 ， 在 符号 后 数值 前 进行 填充 ， 如 -000029 
A 居中 对 齐 ， 用 空格 进行 填充 


表 3-5 .format 方 式 格式 化 字符 串 符 号 列表 


符号 解 
: 数 前 加 +， 负数 前 加 - 
: 数 前 不 加 符号 ， 负 数 前 加 -， 为 数值 的 默认 形式 
正 数 前 加 空格 ， 负 数 前 加 - 


1 + 
rt 


二 
< 过 
II 


.format 方 法 几 种 季 见 的 用 法 如 下 : 
1) 使 用 位 置 符号 


>>> "The number {0:,} in hex is: {0:#x},the number {1} in oct is {1:#0}".format( 
4746, 45) 

"The number 4,746 in hex is: Ox1i28a,the number 45 in oct is Qo055' 

>>> 


# 

中 {9} 

表示 format 

方法 中 对 应 的 第 一 个 参数 ，{14} 
表示 format 


方法 对 应 的 第 二 个 参数 ， 依 次 递 推 


2) 使 用 名 称 。 


>>> print "the max number is {max},the min number is {min},the average number is 
{average:0.3f}".format (max=189,min=12.6,average=23.5) 
the max number is 189,the min number is 12.6,the average number is 23.500 


>>> class Customer(object): 
def _ init (self,name,gender,phone): 
self.name = name 
self.gender = gender 
self.phone = phone 
def _ str (self): 
es return 'Customer({self.name}, {self.gender}, {self.phone})'.format 
(self=self) 
## 
通过 str() 


画 数 返 回 格式 化 的 结果 


>>> str(Customer("Lisa","Female","67889")) 
'Customer(Lisa,Female,67889)'" 
>>> 


4) 格式 化 元 组 的 具体 项 。 


>>> point = (1,3) 
>>> 'X:{0[0]};Y:{0[1]}'.format(point) 
‘X17Y:3" 


>>> 


在 了 解 了 两 种 字符 串 格式 的 基本 用 法 之 后 我 们 再 回 到 本 市 开头 近 
出 的 问题 ， 为 什么 要 尽量 使 用 format 方 式 而 不 是 % 操 作 符 来 格式 化 字符 
串 。 


理由 一 : format 方 式 在 使 用 上 较 % 操 作 符 更 为 灵活 。 使 用 format 方 
式 时 ， 参 数 的 顺序 与 格式 化 的 顺序 不 必 完 全 相同 。 如 : 


>>> "The number {1} in hex is: {1:#x},the number {0} in oct is {0:#0}".format(474 
6,45) 
"The number 45 In hex is: QOx2d,the number 4746 in oct is 0011212 


上 例 中 格式 化 的 顺序 为 {1}，{0}， 其 对 应 的 参数 申明 的 顺序 却 相 
反 ，{1} 与 45 对 应 ， 而 用 % 方 法 需要 使 用 字典 形式 才能 达到 同样 的 目 
的 。 


理由 二 ， format 方 式 可 以 方便 地 作为 参数 传递 。 


>>> weather=[("Monday", "rain"), ("Tuesday", "sunny"), ("Wednesday", "sunny"),("Thurs 
day", "rain"), ("Friday","cloudy")] 

>>> formatter = "Weather of '{0[0]}' is '{0[1]}'".format 

>>> for item in map(formatter,weather):#format 

方法 作为 第 一 个 参数 传递 给 map 

函数 


print item 


Weather of 'Monday' is 'rain' 
Weather of 'Tuesday' is "Sunny， 
Weather of 'Wednesday' is 'sunny' 
Weather of 'Thursday' is "rain' 
Weather of 'Friday' is 'cloudy' 
>>> 


理由 三 : % 最 终 会 彼 .format 方 式 所 代 奉 。 这 个 理由 可 以 认为 是 最 
直接 的 原因 ， 根 据 Python 的 官方 文档 
(http://docs.python.org/2/library/stdtypes.html#string- 


formatting) ，.format() 方 法 最 终 会 取代 %， 在 Python3.0 中 .format 方 法 是 
推荐 使 用 的 方法 ， 而 之 所 以 仍然 保留 % 操 作 符 是 为 了 保持 同 后 兼容 。 


理由 四 : % 方 法 在 某 些 特殊 情况 下 使 用 时 需要 特别 小 心 。 


>> Itemname =("mouse", "mobilephone","cup") 
>>> print "itemlist are %s" %(itemname) # 
% 


使 用 % 
方法 格式 化 元 组 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: not all arguments converted during string formatting 
>>> 


>> print "itemlist are %s" %(itemname,) # 
注意 后 面 的 符号 ， 
itemlist are ('mouse', 'mobilephone', 'cup') 
>>> print "itemlist are {}".format(itemname) # 
使 用 format 
方法 直接 格式 化 不 会 抛 出 异常 
itemlist are ('mouse', 'mobilephone', 'cup') 
>>> 


上 述 例子 中 本 意 是 把 itemname 看 做 一 个 整体 来 进行 格式 化 ， 但 直 
接 使 用 时 却 抛 出 TypeError， 对 于 % 直 接 格 式 化 字符 的 这 种 形式 ， 如 采 
字符 本 身 为 元 组 ， 则 需要 使 用 在 % 使 用 (itemname,) 这 种 形式 才能 避免 错 


误 ， 注 意 逗 号 。 


建议 29: 区 别 对 每 可 变 对 象 和 不 可 变 对 象 


Python 中 一 切 宪 对 象 ， 每 一 个 对 象 都 有 一 个 唯一 的 标示 符 
(id0) 、 类 型 (type()) 以 及 值 。 对 象 根据 其 值 能 否 修改 分 为 可 变 对 
象 和 不 可 变 对 象 ， 其 中 数字 、 字 符 串 、 元 组 属于 不 可 变 对 象 ， 字 典 以 
及 列表 、 字 节 数 组 属于 可 变 对 象 。 而 “ 沫 乌 ” 冲 各 会 试图 修改 字符 串 中 
某 个 字符 。 看 下 面 这 个 例子 : 


teststr = "I am a pytlon string" 
teststr[11]="'h" 
print teststr 


字符 串 为 不 可 变 对 象 ， 任 何 对 字符 串 中 某 个 字符 的 修改 都 会 抛 出 
异 前 。 修 改 字符 串 中 某 个 字符 可 以 采用 如 下 方式 : 


>>> teststr = "I am a pytlon string" 
>>> import array 

>>> a = array.array('c',teststr) 

>>> a[10]="'h' 

>>> a 

array('c', 'I am a Python string') 
>>> a.tostring() 

'I am a Python string’ 


再 来 看 下 面 一 段 程 序 : 


class Student(object): 
def _init (self,name,course=[]): 
self .name=name 
self .course=course 
def addcourse(self,coursename): 
Self,course.append(coursename ) 
def printcourse(self): 
for item in self.course: 
print Item 
stuA=Student ("Wang yi") 
stuA.addcourse("English") 
stuA.addcourse("Math") 
print stuA.name +"'s course:" 
stuA.printcourse() 
print "----------------------- 


stuB=Student("Li san") 
stuB.addcourse("Chinese") 
stuB.addcourse("Physics") 
print stuB.name +"'s course:" 
stuB.printcourse() 


上 述 代 码 清单 摘 述 的 是 两 个 不 同 的 学 生 选 择 不 同 课程 的 场景 。 这 
个 程序 有 什么 问题 吗 ? 通过 运行 程序 得 到 如 下 输出 结 


Wang yi's course: 


Li san's course: 
English 

Math 

Chinese 

Physics 


你 会 证 异地 发 现 Li san 同 学 所 选 的 多 了 English 和 Math 两 门 课程 。 

这 是 怎么 回 事 呢 ? 通 过 查看 id(stuA.course) 和 id(stuB.course)， 我 们 发 现 
这 两 个 值 是 一 样 的 ， 也 就 是 说 在 内 存 中 指 的 是 同一 块 地 址 ， 但 stuA 和 
stuB 本 吴 却 是 两 个 不 同 的 对 象 。 在 实例 化 这 两 个 对 象 的 时 候 ， 这 两 个 
对 和 象 补 分 配 了 不 同 的 内 存 空间 ， 并 且 调 用 init0) 函 数 进行 初始 化 。 但 由 
于 initO 函 数 的 第 二 个 参数 是 个 默认 参数 ， 默 认 参 数 在 函数 被 调用 的 时 
候 仅 仅 被 评 佑 一次， 以 后 都 会 使 用 第 一 次 评估 的 结果 ， 因 此 实际 上 对 
象 空间 里 面 course 所 指 同 的 是 list 的 地 址 ， 每 次 操作 的 实际 上 是 list 所 指 
回 的 具体 列表 。 这 是 我 们 在 将 可 变 对 象 作为 函数 默认 参数 的 时 候 要 特 
别 警 惕 的 问题 ， 对 可 变 对 象 的 更 改 会 直接 有 影响 原 对 象 。 要 解决 上 壕 例 
子 中 的 问题 ， 最 好 的 方法 是 传 入 None 作 为 默认 参数 ， 在 创建 对 象 的 时 
候 动 态 生成 列表 。 具 体 代 码 如 下 : 


def _ init (self,name,course=None): 
self ,name=name 
If course is None:course=[] 
self .course=course 


对 于 可 变 对 象 ， 还 有 一 个 问题 是 需要 注意 的 。 我 们 通过 以 下 例子 
来 说 明 : 


>>> list1i=['a','b','c'] 
>>> list2 = list1 
>>> list1i.append('d') 
>>> list1 
['a', 'b', 人 "d 
>>> list2 
@1List2 
也 会 发 生变 化 
'a', 'b “C0 "d 
>>> list3 = list1[:] 
@ 切 片 操作 相当 于 浅 拷贝 
>>> list3.remove('a') 
>>> list3 
['b', "GC 'd'] 
>>> list1 


8 / Et 'd'] 
>>> list2 

['a', 'b', Cy "d 
>>> ld(1ist3) 
(3) 重 新 指向 一 块 内 存 
14075304 
>>> id(1list1) 
13418864 

>>> id(list2) 
13418864 


上 面 的 例子 中 对 list1 的 切片 操作 实际 会 重新 生成 一 个 对 象 ， 因 为 
切片 操作 相当 于 浅 拷贝 ， 因 此 对 list3 的 操作 并 不 会 改变 list1 和 list2 本 
身 。 我 们 再 来 看 以 下 不 可 变 对 象 的 简单 例子 : 


a+=2 
print a 


我 们 会 发 现 此 时 a 的 值 变 为 3， 这 有 征 理所当然 的 ， 可 是 仔细 一 想 a 和 是 
属于 数值 类 型 ， 是 不 可 变 对 象 ， 怎 么 会 发 生 改变 呢 ? 实际 上 Python 中 
变量 a 存放 的 是 数值 1 在 内 存 中 的 地 址 ， 数 值 1 本 身 才 是 不 可 变 对 象 。 在 
上 面 的 过 程 中 所 改变 的 是 a 所 指向 的 对 象 的 地 址 ， 数 值 1 并 没有 发 生 改 
变 ， 当 执行 a+=2 的 时 候 重 新 分 配 了 一 块 内 存 地 址 存放 结果 ， 并 将 a 的 引 


用 改 为 该 内 存 地 址 ， 而 对 象 1 所 在 的 内 存 空间 会 最 终 被 垃圾 回收 融 回 
收 。 上 述 分 析 的 图 示 如 图 3-5 所 示 。 


= 
A | 
| 广 一 一 | 
AN 

at+=2 

] 

a=3 
J 3 
【 上 一 
We 


图 3-5 ”a 在 内 存 中 的 变化 示意 图 
通过 id(0) 函 数 分 析 也 可 以 证 实 上 述 变 化 过 程 。 


> 
>>> id(a) 
12184696 
>>> id(1) 
@id(a) 

和 id(1) 
的 值 并 不 相等 
12184696 
>>> a+=2 
| 


3 

>>> id(a) 
@id(a) 
的 值 发 生 改变 
12184672 
>>> id(3) 
®@id(a) 

和 id(3) 
的 值 相同 
12184672 


id0) 范 数 分 析 也 可 以 证 实 上 述 变 化 过 程 ， 对 于 不 可 变 对 象 来 说 ， 当 
我 们 对 其 进行 相关 操作 的 时 候 ，Python 实 际 上 仍然 保持 原来 的 值 而 是 
重 狐 创建 一 个 新 的 对 象 ， 所 以 字符 串 对 象 不 允许 以 索引 的 方式 进行 赋 


值 ， 当 有 两 个 对 象 同时 指 癌 一 个 字符 串 对 象 的 时 候 ， 对 其 中 一 个 对 象 
的 操作 并 不 会 影响 男 一 个 对 象 。 


>>> stri1 "hello world" 


>>> str2 = stri 

>>> str1 = str1i[:-5] 
>>> Str1 

'hello ' 

>>> str2 


'hello world' 
>>> 


建议 30: []、0O 和 位: 一 人 致 的 容 絮 初始 化 形 


列表 是 一 个 很 有 用 的 数据 结构 ， 它 在 Python 中 属于 可 变 对 象 ， 列 
表 中 的 元 素 没 有 限制 ， 可 以 重复 可 以 舱 套 ， 操 作 上 文 持 对 单个 元 素 的 
读 取 和 修改 ， 还 文 持 分 片 、 排 序 、 揪 入、 删除 等 。 由 于 其 灵活 性 ， 在 
实际 应 用 中 经 党 会 看 到 它 的 号 影 。 下 面 的 程序 过 历 列 表 中 的 每 个 元 
素 ， 并 根据 要 求 (去 掉 单 词 所 包含 的 空格 后 首 字母 是 否 为 大 写 ) 生成 
一 个 新 的 list 。 


words = [' Are', ' abandon', 'Passion','Business',' fruit  "，'quit '] 
size = len (words) 
newlist = [] 
for i in range(size): 
If words[i].strip().istitle(): 
newlist.append(words[i] 


print newlist 


那么 ， 这 段 程 序 有 什么 问题 吗 ? 或 程序 本 里 米 说 并 没有 什么 明显 
的 问题 ， 但 有 更 好 的 实现 方式 。 这 就 是 列表 解析 (list 
comprehension) 所 涉及 的 内 容 了 。 先 来 了 解 一 下 列表 解析 的 基本 知识 


列表 解析 的 语法 为 : [expr for iter_item in iterable if cond_expr]。 它 
友 代 iterable 中 的 每 一 个 元 素 ， 当 条 件 满 足 的 时 候 便 根据 表达 式 expr 计 
算 的 内 容 生成 一 个 元 素 并 放 入 新 的 列表 中 ， 依 次 类 推 ， 并 最 终 返 回 整 
个 列表 。 在 语法 上 ， 它 等 价 于 下 面 代码 段 : 


Newlist = [] 
for iter_item in iterable: 
if cond_expr: 
Newlist.append(expr) 


其 中 条 件 表达 式 不 古 必 和 需 的 ， 如 采 没 有 条 件 表达 式 ， 丈 直接 将 
expr 中 计算 出 的 元 素 加 入 List 中 。 列表 解析 的 使 用 非常 灵活 。 


1) 支持 多 重 舱 套 。 如 果 需 要 生成 一 个 二 维 列 表 可 以 使 用 列表 解析 
馈 套 的 方式 。 示 例如 下 : 


>>> nested_list [['Hello', 'World'], ['Goodbye', 'Wworld']] 

>>> nested_list [[s.upper() for s in xs] for xs in nested_ list] 
>>> print nested_list 

[['HELLO', 'WORLD'], ['GOODBYE', 'WORLD']] 

>>> 


2) 支持 多 重 迭 代 。 下 面 的 例子 中 a、b 分 别 对 应 两 个 列表 中 的 元 
素 ，[(a,b) for a in ['a','1',1,2] for b in ['1',3,4,'b'] 这 a !=b] 表 示 : 列表 
[a,'1',1,2] 和 ['1',3,4,'b"] 依 次 求 笛 卡 儿 积 之 后 并 去 掉 元 素 值 相等 的 元 组 之 
后 所 剩 下 的 元 组 的 集合 
>>> [(a,b) for a in ['a','1i',1,2] for b in ['1',3,4,'b'] if a != b] 


[('a', '1'), ay 3), (ay 4), ('a', 'b'), (C1, 3), (1', 4), ('1', 'b'), (1, 
工 ) (1, 3), (1, 4), (1, 'b'), (2, '1°), (2, 3), (2, 4), (2, 'b')] 
> 


3) 列表 解析 语法 中 的 表达 式 可 以 是 简单 表达 式 ， 也 可 以 是 复杂 表 


>>> def f(vV): 
If V%2 == 0: 


return v 


>>> [f(v) for v in [2,3,4,-1] if v>0] # 
表达 式 可 以 是 画 数 

[4, 4, 16] 
>>> [v**2 if v%2 ==0 else v+1 for v in [2,3,4,-1] if v>0]# 
也 可 以 是 普通 计算 

[4, 4, 16] 

>>> 


4) 列表 解析 语法 中 的 iterable 可 以 是 任意 可 迭代 对 象 。 下 面 的 例子 
中 把 文件 句柄 当做 一 个 可 和 迭代 对 象 ， 可 轻易 读 出 文件 内 容 。 


fh = open("test.txt", "r") 
result = [i for i in fh if "abc" in i] # 
文件 句柄 可 以 当做 可 迭代 对 象 


print result 


了 解 完 列表 解析 的 基本 知识 之 后 ， 本 下 开头 的 例子 你 应 该 知道 怎 
么 使 用 更 为 侧 涪 了 。 那 么 ， 为 什么 要 推荐 在 需要 生成 列表 的 时 候 使 用 
列表 解析 呢 ? 


1) 使 用 列表 解析 更 为 直观 清晰 ， 代 码 更 为 简洁 。 本 市 开头 的 例子 
改 用 列表 解析 ， 直 接 可 将 代码 行 数 减少 为 2 行 ， 这 在 大 型 复业 应 用 程序 
中 尤为 重要 ， 因 为 这 意味 着 潜在 的 缺陷 较 小 ， 同 时 代码 清晰 直观 ， 更 
容易 阅读 和 理解 ， 可 维护 性 更 强 。 


2) 列表 解析 的 效率 更 高 。 本 节 开 头 的 例子 用 两 种 不 同方 法 实现 后 
进行 测试 ， 测 试 结果 表明 列表 解析 在 时 间 上 有 一 定 的 优势 ， 这 主要 是 
因为 普通 循环 生成 List 的 时 候 一 般 需要 多 次 调用 appendO 画 数 ， 增 加 了 
额外 的 时 间 开 销 。 需 要 说 明 的 是 对 于 大 数据 处 理 ， 列 表 解析 并 不 是 一 
个 最 佳 选择 ， 过 多 的 内 存 消耗 可 能 会 导致 MemoryError 。 


除了 列表 可 以 使 用 列表 解析 的 语法 之 外 ， 其 他 几 种 内 置 的 数据 结 
构 也 支持 ， 比 如 元 组 (tuple) 的 初始 化 语法 是 (expr for iter_item in 
iterable if cond_expr) ， 而 集合 (set) 的 初始 化 语法 是 {expr for 
iter_item in iterable if cond_expr}， 甚 至 字典 (dict) 也 有 类 似 的 语法 
{expr1, expr2 for iter_item in iterable if cond_expr}。 它们 的 使 用 类 似 列 
表 解 析 ， 但 需要 注意 ， 因 为 元 组 也 适用 赋值 语句 的 装 箱 和 拆 箱 机 制 ， 
所 以 需要 注意 \1) 与 (1,) 是 不 同 的: 前 者 为 数字 1， 后 者 才 代 表 元 
组 (注意 1 后 面 的 “,”) 。 


>>> type((1)) 
<type 'int'> 
>>> type((1,)) 
<type 'tuple'> 
>>> 


此 外 ， 当 函数 搂 受 一 个 可 迭代 对 象 参数 时 ， 可 以 使 用 元 组 的 简写 
DT 


>>> def foo(a): 
了 for i in a: 
print 工 


>>> foo([1, 2, 3]) 

1 

2 

3 

>>> foo(i for i in range(3) if i % 2 == 0) 
0 


2 


r-- 


建议 31: 记 住 画 数 传 参 既 不 是 传 值 也 不 是 
ei 


Python 中 的 范 数 参数 到 发 是 传 值 还 十 传 引 用 呢 ? 这 是 许多 人 在 学 习 
过 程 中 会 纠结 的 一 个 问题 ， 很 多 论坛 也 有 这 样 的 讨论 。 总 结 来 说 基本 
有 3 个 观点 : 传 引用 ; 传 值 ， 可 变 对 象 传 引 用 ， 不 可 变 对 象 传 值 。 这 3 
个 观 总 到 撒 哪 个 正确 呢 ? 我 们 逐一 讨论 。 


1) 传 引用 。 先 来 看 一 个 非常 简单 的 例子 〈 请 不 要 因为 例子 太 简单 
而 不 以 为 然 ， 小 故事 往往 强 含 大 道理 ， 它 照样 能 说 明 问 题 ) 。 


示例 一 : 


>>> def inc(n): 
print CD 
n = n+ 
print iatn) 
>>> n =3 
>>> id(n) 
34450040 
>>> inc(n) 
34450040 # 
修改 之 前 的 n 
J 


34459028 # 
修改 之 后 的 n 
的 id 


>>> print n 
3 


>>> 


按照 传 引用 的 概念 ， 上 面 的 例子 期 望 的 输出 应 该 是 4， 并 且 inc() 画 
数 里 面 执行 操作 n=n+1 的 前 后 n 的 id 值 应 该 是 不 变 的。 可 是 事实 古 不 是 
这 样 的 呢 ? 非 也 ， 从 输出 结果 来 看 n 的 值 还 是 不 变 ， 但 id(n) 的 值 在 函数 
体 前 后 却 不 一 怪 。 显然 ， 传 引用 这 个 说 法 十 不 恰当 的 。 


2) 传 值 。 来 看 一 个 示例 。 
示例 二 : 


>>> def change_list(orginator_list): 

ee print "orginator lJist is:",orginator_list 
new_list = orginator_list 
new_list.append("I am new") 
print "new list is:", New_list 
return new_ list 

>>> 

>>> orginator_ list = ['a','b','c'] 

>>> new_list = change- list(orginator_ list) 

orginator list is: ['a', 'b', 'c' 

new list is: ['a', 'b', 'c', 'I am new'] 

>>> print new_list 

['a', 'b', 'c', 'I am new'] 

>>> print orginator_list 

['a', 'b', 'c', 'I am new'] 

>>> 


传 值 通俗 来 讲 就 是 这 个 意思 : 你 在 内 存 中 有 一 个 位 置 ， 我 也 有 一 
个 位 置 ， 我 把 我 的 人 复制 给 你 ， 以 后 你 做 什么 殉 跟 我 没关系 了 ， 我 是 
我 ， 你 是 你 ， 咱 俩 井 水 不 犯 河水 。 可 是 上 面 的 程序 输出 根本 就 不 是 这 
么 一 回 事 ， 显 然 change_listO 函 数 没 有 遵守 约定 ， 调 用 该 函数 之 后 
orginator list 也 发 生 了 改变 ， 这 明显 侵犯 了 orginator_ list 的 权利 。 这 人 么 看 
来 传 值 这 个 说 法 也 不 合适 。 


3) 可 变 对 象 传 引 用 ， 不 可 变 对 象 传 值 。 这 个 说 法 最 靠 谱 ， 很 多 人 
也 是 这 么 理解 的 ， 但 这 个 说 法 到 底 是 否 准 确 呢 ?再 来 看 一 个 示例 。 


示例 三 : 


>>> def change me(org_list): 
本 print id(org. list) 
new_list = org_list 
print id(new_list) 
If len(new_ list)>5: 
new_list = ['a','b','c'] 
for i,e in enumerate(new_ list): 
If isinstance(e,1ist): 
pd new_list[i]="***"  # 
将 元 素 为 ]ist 
类 型 的 赫 换 为 *** 


print new_]1ist 
print id(new_list) 


传 入 参数 org_list 为 列表 ， 属 于 可 变 对 象 ， 按 照 可 变 对 象 传 引用 的 
理解 ，new_list 和 org_list 指 同 同 一 块 内 存 ， 因 此 两 者 的 id 值 输出 一 致 ， 
任何 对 new_list 所 执行 的 内 容 的 操作 会 直接 反应 到 org_list， 也 就 是 说 修 
改 new_list 会 导致 org_list 的 直接 修改 ， 对 吧 ? 来 看 测试 例子 。 


>>> test1 = [1,['a',1,3],[2,1],6] 


>>> change_ mel test1) #test1 
的 元 素 个 数 小 于 
35260216 
35260216 
[1, Te T 兴 类 大 上 6] 
#test1 
中 所 有 
类型 元 部 多 为 了 
3526021 


>>> print test1. 
[1, 1 7 
>>> 


#test1 

中 元 素 的 个 数 大 于 5 
>>> change_me(test2) 
35260136 
35260136 

'a', 'b'", Ie! 
35250664 #new_ list 
的 id 
值 发 生 了 改变 
>>> print test2 #test2 


没 
[1, 2, 3, 4, 5, 6, [4]] 
>>> 


对 于 test1、new_list 和 org_list 的 表现 和 我 们 理解 的 传 引 用 确实 一 
致 ， 最 后 test1 被 修改 为 [1, ***', ***',6]， 但 对 于 输入 test2、new_list 和 
org_list 的 id 输出 在 进行 列表 相关 的 操作 前 是 一 致 的 ， 但 操作 之 后 
new_list 的 id 值 却 变 为 35250664， 整 个 test2 在 调用 函数 change_me0 后 却 
没有 发 生 任何 改变 ， 可 是 按照 传 引 用 的 理解 期 望 输出 应 该 是 ['a','b','c']， 
似乎 可 变 对 象 传 引 用 这 个 说 法 也 不 恰当 。 


那么 Python 函数 中 参数 传递 的 机 制 到 展 是 怎么 样 的 ? 要 明日 这 个 概 
念 ， 首 先 要 理解 ， Python 中 的 赋值 与 我 们 所 理解 的 C/C++ 等 语言 中 的 赋 


值 的 意思 并 不 一 样 。 如 有 果 有 如 下 语句 : 


a =5 


，b = 
，b=7 
我 们 分 别 来 看 一 下 在 C/C++ 以 及 Python 中 是 如 何 赋值 的 。 


如 图 3-6 所 示 ，C/C++ 中 当 执 行 b=a 的 时 候 ， 在 内 存 中 申请 一 块 内 存 
并 将 a 的 值 复 制 到 该 内 存 中 ;， 当 执行 b=7 之 后 是 将 b 对 应 的 值 从 5 修改 为 


7 Oo 
b=7 导 致 b 的 值 从 5 修改 到 7 


gf 


但 在 Python 中 赋值 并 不 是 复制 ，b=a 操 作 使 得 b 与 a3| 用 同一 个 对 
象 。 而 b=7 则 是 将 b 指 向 对 象 7， 如 图 3-7 所 示 。 


b=a 会 将 4 的 值 复制 到 b 所 在 的 内 存 空间 r 


图 3-6 ”C/C++ 巍 值 时 内 存 的 变化 


b=7 会 在 内 存 中 重新 创建 
la |] 一 块 内 存 存放 7 并 指 b 指 向 
5 该 内 存 块 


b=a 使 得 4 与 b 同 时 指向 5 所 在 的 内 存 = 二 1 


图 3-7 ”Python 中 赋值 语句 对 应 的 内 存 变化 


我 们 通过 以 下 示例 来 验证 上 面 所 述 的 过 程 : 


>>> a = 5 
>>> id(a) 
34450016 

>>> b = a 


>>> id(b) #b=a 
之 后 b 
的 id() 
值 和 a 
34450016 
>>> b = 7 
>>> id(b) #b=7 
之 后 b 
指向 对 象 7 
i 
值 发 生 改 变 


34449992 
>>> id(a) 
34450016 


从 输出 可 以 看 出 ，b=a 赋 值 后 b 的 id0 输 出 和 a 一 样 ， 但 b=7 操 作 后 b 
指向 男 外 一 块 空间 。 可 以 简单 理解 为 ,b=a 传 递 的 是 对 象 的 引用 ， 其 过 
程 类 似 于 贴 “标签 "，5 和 7 是 实 实在 在 的 内 存 空间 ， 执 行 a=5 相 当 于 申请 
一 块 内 存 空 间 代 表 对 象 5 并 在 上 面 贴 上 标签 a， 这 样 a 和 5 便 绑 定 在 一 起 
了 “。 而 b=a 相 当 于 对 标签 a 创建 了 一 个 别名 ， 因 此 它们 实际 都 指 癌 5。 但 
b=7 操 作 之 后 标签 pb 重新 贴 到 7 所 代表 的 对 象 上 去 了 ， 而 此 时 5 仅 有 标签 


Q 9” 


理解 了 上 述 背 景 ， 再 回头 来 看 看 前 面 的 例子 就 很 好 理解 了 。 对 于 
示例 一 ，n=n+1， 由 于 n 为 数字 ， 是 不 可 变 对 象 ，n+1 会 重新 申请 一 块 内 
存 ， 其 值 为 n+1， 并 在 函数 体 中 创建 局 部 变量 n 指 向 它 。 当 调用 完 函 数 
inc(n) 之 后 ， 函 数 体 中 的 局 部 变量 在 函数 外 不 并 不 可 见 ， 此 时 的 n 代 表 
函数 体外 的 命名 空间 所 对 应 的 n， 值 还 是 3。 而 在 示例 三 中 ， 当 org_list 
的 长 度 大 于 5 的 时 候 ，new_list = [avb'c] 操 作 重 新 创建 了 一 块 内 存 并 将 
new_list 指 向 它 。 当 传 入 参数 为 test2=[1,2,3,4,5,6,[1]] 的 时 候 ， 画 数 的 执 
行 并 没有 改变 该 列表 的 值 。 


因此 ， 对 于 Python 函数 参数 是 传 值 还 是 传 引用 这 个 问题 的 答案 是 ; 
都 不 是 。 正 确 的 叫 法 应 该 是 传 对 象 (call by object) 或 者 说 传 对 象 的 引 
用 (call-by-object-reference) 。 辑 数 参数 在 传递 的 过 程 中 将 整个 对 象 传 
入 ， 对 可 变 对 象 的 修改 在 函数 外 部 以 及 内 部 都 可 见 ， 调 用 者 和 被 调用 
者 之 间 共 享 这 个 对 象 ， 而 对 于 不 可 变 对 象 ， 由 于 并 不 能 真正 被 修改 ， 
因此 ， 修 改 往往 是 通过 生成 一 个 新 对 象 然后 赋值 来 实现 的 。 


建议 32: 警惕 默认 参数 并 在 的 问题 


上 默认 参数 可 以 给 函数 的 使 用 市 来 很 大 的 灵活 性 ， 当 函数 调用 没有 
指定 与 形 参 对 应 的 实 参 时 整 会 目 动 使 用 默认 参数 。 


>>> def De lista = []): # 
pe 列表 

print id(lista) 

lista.append(newitem) 

print id(lista) 

return lista 


>>> 

>>> appendtest('a',['b',2,4,[1,2]]) 
39644216 

39644216 

['b', 2, 4, [1, 2], 'a'] 


现在 请 读者 思考 这 么 一 个 问题 : 如 果 第 二 个 参数 采取 默认 参数 ， 
连续 调用 两 次 appendtest(1)、appendtest(a07， 画 数 的 返回 值 是 多 少 ? 期 
望 的 结果 应 该 是 [1] 和 ['a]， 对 吧 ? 可 是 实际 情况 却 输出 了 [1 和 [1, 'a] 
那么 这 是 什么 原因 呢 ? 


def 在 Python 中 是 一 个 可 执行 的 语句， 当 解 释 器 执行 def 的 时 候 ， 默 
认 人 参数 也 会 被 计算 ， 并 存在 函数 的 .func_defaults 属 性 中 。 由 于 Python 中 
函数 参数 传递 的 是 对 象 ， 可 变 对 象 在 调用 者 和 被 调用 者 之 间 共 至 ， 因 
此 当 首 次 调用 appendtest(1) 的 时 候 ，[] 变 为 [1]， 而 再 次 调用 的 时 候 由 于 
默认 参数 不 会 重新 计算 ， 0 为 了 [1,'a]。 我 们 可 以 通过 
查看 函数 的 func_defaults 来 确认 这 一 


>>> appendtest(1) 
39022960 
39022960 


>>> appendtest .func_defaults # 
第 一 次 调用 后 默认 参数 变 为 [1] 
([1],) 


>>> appendtest('a') 

39022960 

39022960 

[1, 'a'] 

>>> appendtest .func_defaults 


经 过 第 二 次 调 
变 为 [1， 
“a 


"] 

([1, 'a'],) 

>>> 

>>> appendtest .func_defaults[0][:] = [] 


## 
可 以 直接 修改 func_defaults 
属性 
>>> appendtest ,func_defau1lts 


([],) 


如 采 不 想 让 稚 认 参数 所 指 癌 的 对 象 在 所 有 的 函数 调用 中 被 共 孚 ， 
而 是 在 函数 调用 的 过 程 中 动态 生成 ， 可 以 在 定义 的 时 候 使 用 None 对 象 
作为 占 位 答 。 因 此 本 市 开头 的 例子 应 该 修正 为 如 下 形式 : 


>>> def appendtest(newitem,1lista = None):# 


默认 参数 改 为 None 
让 if lista is None: 
lista = [] 


lista.append(newitem) 
return lista 


最 后 以 一 个 问题 结束 本 广 : 假设 report0 函 数 需要 传 入 当前 系统 的 


时 间 并 做 一 些 处 理 ， 下 面 两 种 参数 传递 方式 哪 种 正确 呢 ? 读者 应 该 知 
道 答案 了 ! 


>>> import time 
>>> def report(when = time.time()): 
pass 


>>> def report(when = time.time): 
ee pass 


建议 33: 慎 用 变 长 参数 


Python 文 持 可 变 长 度 的 参数 列表 ， 可 以 通过 在 函数 定义 的 时 候 使 
用 *args 和 **kwargs 这 两 个 特殊 语法 来 实现 \args 和 kwargs 可 以 替换 成 
任意 你 喜欢 的 变量 名 ) 。 先 来 看 两 个 可 变 长 参数 使 用 的 例子 。 


1) 使 用 *args 来 实现 可 变 参 数列 表 : *args 用 于 接受 一 个 包装 为 元 
组 形式 的 参数 列表 来 传递 非 关 键 字 参数 ， 参 数 个 数 可 以 任意 ， 如 下 例 
所 示 。 


def SumFun(*args): 
result = 0 
for x in args[0:]: 

result += x 

return result 

print SumFun(2,4) 

print SumFun(1,2,3,4,5) 

print SumFun() 


2) 使 用 **kwargs 接 受 字 典 形式 的 关键 字 参 数列 表 ， 其 中 字典 的 键 
值 对 分 别 表示 不 可 变 参数 的 参数 名 和 值 。 如 下 例 中 apple 表 示 参 数 名 ， 
而 fruit 为 其 对 应 的 value， 可 以 是 一 个 或 者 多 个 键 值 对 。 


def category_table(**kwargs): 
for name, value in kwargs.items(): 
print '{0} is a kind of {1}'.format(name, value) 
category_table(apple = 'fruit', carrot = 'vegetable',Python = 'programming 
language') 
category_table(BMW = 'Car') 


如 果 一 个 函数 中 同时 定义 了 普通 参数 、 默 认 参 数 ， 以 及 上 述 两 种 
形式 的 可 变 参 数 ， 那 么 使 用 情况 又 是 怎样 的 呢 ? 来 看 一 个 简单 的 问 


题 。 


def set_axis(x,y, xlabel="x", ylabel="y", *args, **kwargs): 


对 于 上 面 的 函数 下 面 儿 种 调用 方式 哪些 是 不 正确 的 呢 ? 


| "test1", "test2","test3", my_kwarg="test3") 


set_axis(2,3, my_kwarg="test3") 
set_axis(2,3, "test1",my_kwarg="test3") 
@) 


set_axis("test1", "test2", xlabel="new x",ylabel = "new_y" 
1 UL 


_y", my_kwarg="test3") 
set_axis(2,"test1", "test2",ylabel = "new y", my_kwarg="test3" 


) 


答案 是 : 上 面 的 所 有 调用 方式 都 是 合法 的 ! 实际 上 在 4 种 不 同形 式 
的 参数 同时 存在 的 情况 下 ， 会 首先 满足 普通 参数 ， 然 后 是 默认 参数 。 
如 果 剩 余 的 参数 个 数 能 够 履 盖 所 有 的 默认 参数 ， 则 默认 参数 会 使 用 传 
递 时 候 的 值 ， 如 标注 四 处 的 函数 在 调用 的 时 候 xlabel 和 ylabel 的 值 分 别 
为 “test1” 和 “test2”; 如 果 剩 余 参数 个 数 不 够 ， 则 尽 最 大 可 能 满足 默认 
参数 的 值 ， 标 注 @ 中 xlabel 值 为 *test1”， 而 ylabel 则 使 用 默认 参数 y。 除 
此 之 外 其 余 的 参数 除了 键 值 对 以 外 所 有 的 参数 都 将 作为 args 的 可 变 参 
数 ，kwargs 则 与 键 值 对 对 应 。 那 么 ， 为 什么 要 慎 用 可 变 长 度 参 数 呢 ? 
原因 如 下 : 


1) 使 用 过 于 灵活 。 上 面 的 示例 set_axis() 随 随便 便 就 能 写 出 好 几 种 
不 同形 式 的 调用 方式 。 在 混合 普通 参数 或 者 默认 参数 的 情况 下 ， 变 长 
参数 意味 着 这 个 函数 的 签名 不 够 清晰 ， 存 在 多 种 调用 方式 。 如 末 调 用 
者 需要 花费 过 多 的 时 间 来 研究 你 的 方法 该 如 何 调 用 ， 显 然 这 并 不 是 一 
种 值得 提倡 的 方式 ， 即 使 你 认为 它 很 炉 ， 很 高 端 大 气 上 档次 ， 但 在 团 
队 合作 开发 的 项 目 中 ， 千 万 不 要 有 这 种 想法 ， 团 队 开 发 不 是 你 的 个 人 
葛 技 场 ， 代 码 编写 从 某 种 程度 上 说 也 是 一 种 沟通 ， 清 晰 准确 是 一 个 很 
重要 的 指标 。 男 外 变 长 参数 可 能 会 破坏 程序 的 健壮 性 。 


2) 如 果 一 个 函数 的 参数 列表 很 长 ， 虽 然 可 以 通过 使 用 *args 和 
##kwargs 来 答 化 函数 的 定义 ， 但 通常 这 意味 着 这 个 图 数 可 以 有 更 好 的 
实现 方式 ， 应 该 被 重 构 。 前 面 的 例子 中 SumFun(*args) 如 果 改 为 def 
Sum(seqd)， 在 函数 调用 之 前 将 需要 传递 的 参数 保存 在 一 个 序列 中 ， 如 
seq = (12,3,4,5,6,7)， 再 将 序列 seq 作 为 参数 传 入 Sum 中 也 是 一 个 不 错 的 
选择 。 同 样 如 果 使 用 **kwargs 的 目的 仅仅 是 为 了 传 入 一 个 字典 ， 这 将 
是 一 个 非常 精 糕 的 选择 。 


3) 可 变 长 参数 适合 在 下 列 情况 下 使 用 〈 不 仅 限于 以 下 场景 ) 
为 函数 添加 一 个 痛 饰 磊 。 


>>> def mydecorator(fun ) : 
def new(*args,**kwargs): 


# ，,， 
return fun(*args,**kwargs) 
return new 


:如 采 参 数 的 数目 不 确定 ， 可 以 考虑 使 用 变 长 参数 。 如 配置 文件 
test.cfg 内 容 如 下 : 


[Defaults] 
name = test 
version = 1.0 
platform = windows 
func(**kwargs) 
于 读 取 一 些 配置 文件 中 的 值 并 进行 全 局 变量 初始 化 。 
from ConfigParser import ConfigParser 
conf = ConfigParser() 
conf.read('test.cfg') 
conf_dict = dict(conf.items('Defaults')) 
def func(**kwargs): 
kwargs.update(conf_dict) 
global name 
name = kwargs.get('name') 


让 


global version 

version = kwargs.get('version') 
global platform 

platform = kwargs.get('platform') 


用 来 实现 轴 数 的 多 态 或 者 在 继承 情况 下 子 类 需要 调用 父 类 的 某 些 
方法 的 时 候 。 


>>> class A(object ) : 
def somefun(self,p1,p2): 
pass 


>>> class B(A): 
def myfun(self,p3,*args,**kwargs): 
super(B, self).somefun(*args,**kwargs) 


建议 34: 深入 理解 str0 和 reprO 的 区 别 


函数 str0 和 reprO 都 可 以 将 Python 中 的 对 象 转换 为 字符 串 ， 它 们 的 使 
用 以 及 输出 都 非常 相似 ， 以 至 于 很 多 人 认为 这 两 者 之 间 并 没有 区 别 ， 
但 事实 是 不 是 这 样 呢 ? 先 来 看 对 于 不 同类 型 的 输入 ， 这 两 个 钞 数 的 输 
出 有 何 异 同 ， 如 表 3-6 所 示 。 


表 3-6 str 和 repr0 画 数 在 不 同情 况 下 输出 比较 


输入 repr() 
a=1 及 
a=0.1 ‘Qa 
a= "abe" "abe" 
a=(1,2,3) (lo2 3 
( 续 ) 
输入 repr() 
BNA "<class' main .A'>" "<class' mailn .A>" 
pass 
a=AO ‘< main .A object at 0X0228C6B0>' '< main .A objectat 0X0228C6B0>' 
Oe '<function f at Ox02284830>' '<function fat 0x02284830>' 


a=2/3.0 © '0.6666666666666666' 
a a 

a= Decimal(1.25) @) "Decimal('1.25")" 

a= date.today() ® 'datetime.date(2013. 7. 20)' 


a= Nr" | 


"ma" 


从 表 3-6 看 出 ，repr0 和 str0 对 于 大 多 数 数据 类 型 的 输出 基本 一 致 ， 
因此 混 消 也 束 不 难 理解 了 。 但 它们 也 存在 不 一 致 的 情况 。 那 么 ， 这 两 
者 之 间 到 底 有 什么 区 别 呢 ? 总 结 来 说 有 以 下 几 点 : 


1) 两 者 之 间 的 目标 不 同 : str0 主 要 面向 用 户 ， 其 目的 是 可 读 性 ， 
退回 形式 为 用 户 友好 性 和 可 读 性 都 较 强 的 字符 串 类 型 ， 而 reprO 面 问 的 
征 Python 解 释 硼 ， 或 者 说 开发 人 员 ， 其 目的 是 准确 性 ， 其 返回 值 表示 
Python 解释 器 内 部 的 含义 ， 常 作为 编程 人 员 debug 用 途 。 


2) 在 解释 器 中 直接 输入 a 时 默认 调用 reprO 函 数 ， 而 print a 则 调用 
str() 落 数 。 


3) repr0 的 返回 值 一 般 可 以 用 eval0) 函 数 来 还 原 对 象 ， 通 常 来 说 有 
如 下 等 起 六 


obj == eval(repr(obj)) 


但 需要 提醒 的 是 ， 这 个 等 式 不 是 所 有 情况 下 都 成 立 ， 如 用 户 重新 
实现 的 repr0) 方 法 如 下 。 


>>> SEE LL 

>>> str(s) 

>>> repr(s) 

WN 此 

>>> eval(repr(s)) == s 
了 

>>> eval(str(s)) 

>>> eval(str(s)) == S 
False 


>>> 


4) 这 两 个 方法 分 别 调用 内 建 的 _str_0 和 _ repr_ 0) 方法， 一 般 来 
说 在 类 中 都 应 该 定义 _repr_ 0 方法， 而 _str_ 0 方法 则 为 可 选 ， 当 可 
读 性 比 准确 性 更 为 重要 的 时 候 应 该 考虑 定义 _ str_0 方 法。 如 采 类 中 没 
有 定义 _ str_0 方 法 ， 则 默认 会 使 用 _repr_ 0 方法 的 结果 来 返回 对 象 
的 字符 串 表 示 形 式 。 用 户 实现 _repr 0 方法 的 时 候 最 好 保证 其 返回 值 
可 以 用 eval0) 方 法 使 对 象 重新 还 原 。 


建议 35: 分 清 staticmethod 和 classmethod 的 
适用 场景 


Python 中 的 静态 方法 (staticmethod) 和 类 方法 (classmethod) 都 
依赖 于 装饰 器 (decorator) 来 实现 。 其 中 静态 方法 的 用 法 如 下 : 


class C(object ) : 
@staticmethod 
def f(arg1, arg2, ...): 


而 类 方法 的 用 法 如 下 : 


class C(object): 
@classmethod 
def f(cls, arg1, arg2, ...): 


静态 方法 和 类 方法 都 可 以 通过 类 名 .方法 名 (如 C.f0) 或 者 实例 . 方 
法 名 (C0O.f0) 的 形式 来 访问 。 其 中 静态 方法 没有 常规 方法 的 特殊 行 
为 ， 如 绑 定 、 非 绑 定 、 隐 式 参数 等 规则 而 类 方法 的 调用 使 用 类 本 吴 
作为 其 隐 含 参数， 但 调用 本 吴 并 不 需要 显示 提供 该 参数 。 


Class A(object ) : 
def instance method(self,x): 
print "calling instance method instance_ method(%s,%s)"%(self,x) 
Q@classmethod 
def class method(cls,x): 
print "calling class_ method(%s,%s)"%(cls,x) 
@staticmethod 
def static method(x): 
print "calling static method(%s)"%x 
a = A() 
a.instance method("test") 
# 


输出 calling instance method instance _method(< main .A object at 
OxQOD66B50>, test) 

a.class_ method("test") 

# 
输出 calling class_method(<class ' main .A'>,test) 
a.static method("test") 


并 站 
兰 


但 出 calling static_method(test) 


上 面 的 例子 是 类 方法 和 静态 方法 的 简单 应 用 ， 从 程序 的 输出 可 以 
看 出 虽然 类 方法 在 调用 的 时 候 没 有 显 式 声明 cls， 但 实际 上 类 本 身 是 作 
为 隐 含 参数 传 入 的 。 


在 了 解 完 静 态 方 法 和 类 方法 的 基本 知识 之 后 再 来 研究 这 样 一 个 问 
题 : 为 什么 需要 静态 方法 和 类 方法 ， 它 们 和 普通 的 实例 方法 之 间 存 在 
什么 区 别 ? 我 们 通过 对 具体 问题 的 研究 来 回答 这 些 问 题 。 假 设 有 水 果 
类 Fruit， 它 用 属性 total 表 示 总 量 ，Fruit 中 已 经 有 方法 set0 来 设置 总 量 ， 
print_ total(0) 方 法 来 打印 水 果 数 量 。 类 Apple 和 类 Orange 继 承 目 Fruit。 我 
们 需要 分 别 跟 踩 不 同类 型 的 水 果 的 总 量 。 有 好 几 种 方法 可 以 实现 这 个 
功能 。 


方法 一 : 利用 普通 的 实例 方法 来 实现 。 


在 Apple 和 Orange 类 中 分 别 定 义 类 变量 total， 然 后 再 禾 盖 基 类 的 
set() 和 print_total() 方 法 ， 但 这 会 导致 代码 风 余 ， 因 为 本 质 上 这 些 方法 
所 实现 的 功能 相同 (读者 可 以 自行 完成 ) 。 


方法 二 : 使 用 类 方法 实现 ， 具 体 实 现代 码 清 单 如 下 。 


class Fruit(object): 
total = 0 
Q@classmethod 
def print_total(cls): 
print cls.total 
#print id(Fruit.total) 
#print id(cls.total) 
@classmethod 
def set(cls, value): 
#print "calling class method(%s,%s)"%(cls,value) 
cls.total = value 
class Apple(Fruit): 
a 


pass 

class Orange(Fruit): 
Pass 

app1 = Apple() 

app1. set (200) 

app2 = Apple() 


org1 = Orange() 

org1.set(300) 

org2 = Orange() 
app1.print_total() #output 200 
org1.print_total() #output 300 


删除 上 面 代码 中 的 注释 语句 后 运行 程序 会 得 到 以 下 结 采 : 


calling class method(<class "main_ .Apple'>, 200) 
calling class_method(<class ' main _.Orange'>,300) 
200 

12184820------ >Fruit 

类 的 类 变量 

12186364 ----- > 

动态 生成 的 Apple 

类 的 类 变量 

300 

12184820------ >Fruit 

类 的 类 变量 

13810996 ----- 

动态 生成 的 Orange 

类 的 类 变量 


简单 分 析 可 知 ， 针 对 不 同 种 类 的 水 果 对 象 调用 set(0) 方 法 的 时 候 隐 
形 传 入 的 参数 为 该 对 象 所 对 应 的 类 ， 在 调用 set() 的 过 程 中 动态 生成 了 
对 应 的 类 的 类 变量 。 这 就 是 classmethod 的 妙 处 。 请 读 考 自 行 思 考 : 此 
处 将 类 方法 改 为 静态 方法 是 否 可 行 呢 ? 


我 们 再 来 看 一 个 必须 使 用 类 方法 而 不 是 静态 方法 的 例子 : 假设 对 
于 每 一 个 Fruit 类 我 们 提供 3 个 实例 属性 : area 表 示 区 域 代 码 ，category 
表示 种 类 代码 ，batch 表 示 批 次 号 。 现 需要 一 个 方法 能 够 将 以 area- 
category-batch 形 式 表 示 的 字符 串 形式 的 输入 转化 为 对 应 的 属性 并 以 对 
象 返 回 。 


假设 Fruit 中 有 如 下 初始 化 方法 ， 并 且 有 静态 方法 nit_ProductO) 能 
够 满足 上 面 所 提 的 要 求 。 


def _ init (self, area="", category="", batch=""): 
self.area = area 
Self,category = category 
self.,batch = batch 
@staticmethod 


def Init_Product(product_info): 
area, category, batch = map(int, product_info.split('-')) 
fruit = Fruit(area, category, batch) 
return fruit 


我 们 首先 来 看 看 使 用 静态 方法 所 带 来 的 问题 。 


app1 = Apple (2,5,10) 

org1 = Orange.Init_ Product("3-3-9") 

print "app1 is instance of Apple:"+str(isinstance(app1, Apple)) 
print "org1 is instance of Orange:"+str(isinstance(orgi, Orange)) 


运行 程序 我 们 会 发 现 isinstance(org1, Orange) 的 值 为 False。 这 不 奇 
怪 ， 因 为 静态 方法 实际 相当 于 一 个 定义 在 类 里 面 的 男 数 ，Imit_Product 
返回 的 实际 是 Fruit 的 对 象 ， 所 以 它 不 会 是 Orange 的 实例 。 
Init_Product() 的 功能 类 似 于 工厂 方法 ， 能 够 根据 不 同 的 类 型 返回 对 应 
的 类 的 实例 ， 因 此 使 用 静态 方法 并 不 能 获得 期 望 的 结果 ， 类 方法 才 是 
正确 的 解决 方案 。 可 以 针对 代码 做 出 如 下 修改 : 


@classmethod 

def Init_ Product(cls,product_info): 
area, category, batch = map(int, product_info.split('-')) 
fruit = cls(area, category, batch) 
return fruit 


也 许 读者 会 问 ， 既然 这 样 ， 静 人 态 方 法 到 底 有 什么 用 呢 ? 什么 情况 
下 可 以 使 用 静态 方法 ? 继续 上 面 的 例子 ,假设 我 们 还 需要 一 个 方法 来 
验证 输入 的 合法 性 ， 方 法 的 具体 实现 如 下 : 


def is_input_valid(product_info): 
area, category, batch = map(int, product_info.split('-')) 
try: 
assert 0 <= area <= 10 
assert 0 <= category <= 15 
assert 0 <= batch <= 99 
except AssertionError : 
return False 
return True 


那么 应 该 将 其 声明 为 静态 方法 还 是 类 方法 呢 ? 答案 征 两 者 都 可 ， 

甚至 将 其 作为 一 个 定义 在 类 的 外 部 的 函数 都 是 可 以 的 。 但 仔细 分 析 该 
方法 会 发 现 它 既 不 跟 特 定 的 实例 相关 也 不 跟 特 定 的 类 相关 ， 因 此 将 其 
定义 为 静态 方法 是 个 不 错 的 选择 ， 这 样 代码 能 够 一 目 了 然 。 也 许 你 会 
问 : 为 什么 不 将 该 方法 定义 成 外 部 函数 呢 ? 这 是 因 为 静态 方法 定义 在 
类 中 ， 较 之 外 部 函数 ， 能 够 更 加 有 效 地 将 代码 组 织 起 来 ， 从 而 使 相关 
代码 的 垂直 距离 更 近 ， 提 高 代码 的 可 维护 性 。 当 然 ， 如 采 有 一 组 独立 
的 方法 ， 将 其 定义 在 一 个 模块 中 ， 通 过 模块 来 访问 这 些 方法 也 是 一 个 
不 错 的 选择 。 


第 4 章 ” 库 


Python 具有 丰富 的 库 ， 掌 握 所 有 的 库 的 用 法 和 使 用 基本 上 十 不 可 
能 的 ， 更 好 的 方法 是 掌握 一 些 常 见 库 的 使 用 和 注意 事项 ， 对 于 使 用 较 
少 的 库 可 以 在 具体 应 用 时 参考 其 文档 以 及 使 用 范例 。 本 章 主要 讨论 一 
些 常用 库 的 使 用 和 技巧 。 


建议 36: 掌握 字符 串 的 基本 用 法 


无 名 氏 说 : 编程 有 两 件 事 ， 一 件 是 处 理 数值 ， 男 一 件 是 处 理 字符 
串 。 要 我 说 ， 对 于 商业 应 用 编程 来 说 ， 处 理 字符 串 的 代码 可 能 超过 八 
成 ， 所 以 掌握 字符 串 的 基本 用 法 尤其 重要 。 通 过 Python 教程 ， 读 者 已 
经 掌握 了 基本 的 字符 串 字 面 量 语法 ， 比 如 u、r 前 缀 等 ， 但 对 于 怎么 更 
好 地 编写 多 行 的 字符 串 字 面 量 ， 人 仍然 有 个 小 技巧 值得 癌 大 家 推介 。 


>>> s = ('SELECT * ' 
有 "FROM atable ' 
"WHERE afield="value"') 
"SELECT * FROM atable WHERE afield="value"' 

这 就 古 利用 Python 仙 到 未 闭合 的 小 括号 时 会 目 动 将 多 行 代码 拼接 
为 一 行 和 把 相 邻 的 两 个 字符 串 字 面 量 拼接 在 一 起 的 特性 做 到 的 。 相 比 
使 用 3 个 连续 的 单 ( 双 ) 引号 ， 这 种 方式 不 会 把 换行 符 和 前 导 空 格 也 当 
作 字 符 串 的 一 部 分 ， 则 更 加 符合 用 户 的 思维 习惯 。 


除了 这 个 小 技巧 ， 也 许 你 已 经 听 说 过 Python 中 的 字符 串 其 实 有 str 
和 unicode 两 种 。 是 的 ， 的 确 如 此 ， 虽 然 在 Python 3 中 已 经 简化 为 一 
种 ， 但 如 果 你 还 在 编写 运行 在 Python 2 上 的 程序 ， 当 需要 判断 变量 是 
否 为 字符 串 时 ， 需 要 注意 了 。 判 断 一 个 变量 s 是 不 是 字符 串 应 使 用 
isinstance(s,basestring)， 注 意 这 里 的 参数 是 basestring 而 不 是 str 。 


>>> a 二 到 后 二 于 
>>> isinstance(a,str) sy，  ，，， 


@ 

True 

>>> b =u"Hi" 

>>> isinstance(b,str) sy，  ，，， 
False 

>>> isinstance(b,basestring) 


ue 
>>> isinstance(b,unicode) 


True 
>>> isinstance(a,unicode) ss， ，，，,， 
® 


False 
>>> 


如 标注 QD 所 示 : isinstance(a,str) 用 于 判断 一 个 字符 串 是 不 是 普通 字 
竺 串 ， 也 残 是 说 其 类 型 是 否 为 str; 因此 当 被 判断 的 字符 串 为 Unicode 的 
时 候 ， 返 回 False， 如 标注 所 示 。 同 样 ， 标 注 @3) 中 isinstance(a,unicode) 
用 来 判断 一 个 字符 串 是 不 是 Unicode。 因 此 要 正确 判断 一 个 变量 是 不 是 
字符 串 ， 应 该 使 用 isinstance(s,basestring)， 因 为 basestring 才 是 是 str 和 
unicode 的 基 类 ， 包 含 了 普通 字符 串 和 unicode 类 型 。 


接 下 来 正式 开始 学 习 字 符 串 的 基本 用 法 。 与 其 他 书籍 、 手 册 不 
同 ， 我 们 将 通过 性 质 判 定 、 和 查找 替换 、 分 切 与 连接 、 变 形 、 填 衬 与 删 
减 等 5 个 方面 来 学 习 。 首 先是 性 质 判 定 ，str 对 象 有 以 下 几 个 方法 : 
isalnum() 、 isalpha() 、 isdigit() 、 islower() 、 isupper() 、 isspace(O 、 
istitle() 、 startswith(prefix[, start[, end]]) ~ endswith(suffix[,start[, end]])， 
前 面 几 个 is*(0) 形 式 的 函数 很 向 单 ， 顾 名 思 义 无 非 是 判定 是 否 数字 、 字 
\` 大 小 写 、 至 日 待 之 类 的 ，istitle0 作 为 东方 人 用 得 少 些 ， 它 是 判定 
字符 串 是 否 每 个 单词 都 有 且 只 有 第 一 个 字母 是 大 写 的 。 


>>> assert 'Hello World!'.istitle() == True 
>>> assert 'HE]11o World!'.istitle() == False 


相对 于 is*(O) 这 些 “ 小 儿科 ”来 说 ， 需 要 注意 的 是 *with() 函 数 族 可 以 
接受 可 选 的 start、end 参 数 ， 善 加 利用 ， 可 以 优化 性 能 。 另 外 ， 自 
Python 2.5 版 本 起 ，*with0) 函 数 族 的 prefix 参 数 可 以 接受 tuple 类 型 的 实 
参 ， 当 实 参 中 的 某 个 元 素 能 够 匹配 时 ， 即 返回 True 。 


接 下 来 是 查找 与 替换 ， count( Sub[, start[, end]]) ~ find( sub[， start[， 
end]])、index( sub[, start[, end]]) ~ rfind( sub[, start[,end]]) ~ rindex( sub|， 


start[, end]]) 这 些 方法 都 接受 start、end 参 数 ， 善 加 利用 ， 可 以 优化 性 
能 。 其 中 count() 能 够 查找 子 串 sub 在 字符 串 中 出 现 的 次 数 ， 这 个 数值 在 
调用 replace 方 法 的 时 候 用 得 着 。 此 外 ， 需 要 注意 find() 和 index() 方 法 的 
不 同 : findO 函 数 族 找 不 到 时 返回 -1，index() 函 数 族 则 抛 出 ValueError 异 
常 。 但 对 于 判定 是 否 包 含 子 串 的 判定 并 不 推荐 调用 这 些 方 法 ， 而 是 推 
荐 使 用 in 和 not in 操作 符 。 


>>> str = "Test if a string contains some special substrings" 
>>> if str.find("some") != -1: # 
使 用 find 


全 
方法 进行 判断 
i print "Yes,it contains" 
Yes,it contains 

>>> if "some" in str: # 

使 用 in 
方法 也 可 以 判断 


print "Yes,it contains using in" 


Yes,it contains using in 


replace(old, new[Lcount) 用 以 蔡 换 字符 溃 的 某 些 子 哩 ， 如 果 指 定 
count 参 数 的 话 ， 就 最 多 替换 count 次 ， 如 果 不 指 定 ， 就 全 部 替换 〈 跟 其 
他 语言 不 太一 样 ， 要 注意 了 ) 。 


然后 要 掌握 字符 串 的 分 切 与 连接 ， 关 于 连 授 ， 会 有 一 节 专 门 进 行 
讲述 ， 在 这 里 ， 专 讲 分 切 。partition(sep)、rpartition(sep)、 
splitlines([keepends]) 、 split([sep [,maxsplit]]) ~、 rsplit([sep[,maxsplit]]), 
别 看 这 些 方法 好 像 很 多 ， 其 实 只 要 弄 消 楚 partition() 和 split0) 束 可 以 了 。 
*partition0 国 数 族 是 2.5 版 本 新 增 的 方法 ， 它 接受 一 个 字符 串 参 数 ， 并 
返回 一 个 3 个 元 素 的 元 组 对 象 。 如 果 sep 没 出 现在 母 串 中 ， 返 回信 是 
(sep, ","); 否则 ， 返 回 值 的 第 一 个 元 素 是 sep 左 端的 部 分 ， 第 二 个 元 素 
是 sep 目 身 ， 第 三 个 元 素 是 sep 右 端的 部 分 。 而 splitO0 的 参数 maxsplit 是 分 
切 的 次 数 ， 即 最 大 的 分 切 次 数 ， 所 以 返回 值 最 多 有 maxsplit+1 个 元 素 。 
但 split 有 不 少 小 陷阱 ， 需 要 注意 ， 比 如 对 于 字符 串 s、s.split() 和 
s.split(") 的 返回 值 是 不 相同 的 。 


>>> ' hello world!'.split() 

['hello', ‘world!' 

>>> ' hello world!'.split(' ') 
3 3 'hello', yy 'world!'] 


产生 差异 的 原因 在 于 : 当 忽 上 略 sep 参 数 或 sep 参 数 为 None 时 与 明确 
给 sep 赋 了 予 字符 串 值 时 ，split0 采 用 两 种 不 同 的 算法 。 对 于 前 者 ，split0) 
先 去 除 字 符 串 两 端的 空 日 符 ， 然 后 以 任意 长 度 的 空 日 符 串 作为 界定 符 
分 切 字符 串 〈 即 连续 的 空白 符 串 被 当 作 单一 的 空白 符 看 待 ) ;对 于 后 
者 则 认为 两 个 连续 的 sep 之 间 存 在 一 个 空 字符 串 。 因 此 对 于 空 字符 串 
(或 空白 符 串 ) ， 它 们 的 返回 值 也 是 不 同 的 。 


>>> ' ,split() 


>>> "'',Split("' ') 
["'] 


掌握 了 split()， 可 以 说 字符 串 最 大 的 陷阱 已 经 跨 过 去 了。 下 面 症 天 
于 变形 的 内 容 。lower()、upper()、capitalize()、 swapcase()、title(0) 这 些 
无 非 是 大 小 写 切换 的 小 事 ， 不 过 需要 注意 的 是 titile0 的 功能 是 将 每 一 个 
单词 的 首 字 母 大 写 ， 并 将 单词 中 的 非 首 字母 转换 为 小 写 (英文 文章 的 
标题 通常 是 这 种 格式 ) 


>>> 'hello wOR1ld!'.title() 
'Hello Wor1dl 


因为 title0) 芳 数 并 不 去 除 字 符 串 两 端的 空 日 从 也 不 会 把 连续 的 空 日 
符 蔡 换 为 一 个 空格 ， 所 以 不 能 把 tileO 理 解 先 以 空白 符 分 切 字 符 串 ， 然 
后 调用 capitalize() 处 理 每 个 字 词 以 使 其 站 字母 大 写 ， 再 用 空格 将 它们 连 
接 在 一 起 。 如 果 你 有 这 样 的 需求 ， 建 议 使 用 string 模 块 中 的 capwords(s) 
函数 ， 它 能 够 去 除 两 端的 空 日 竺 ， 再 将 连续 的 空白 符 用 一 个 空格 代 


奉 。 


>>> ' hello world!'.title() 

” Hello World!' 

>>> string.capwords(' hello world!') 
'Hello World!' 


看 ， 它 们 的 结果 是 不 相同 的 ! 最 后 ， 是 删 减 与 填充 。 删 减 在 文本 
处 理 是 很 钟 用 ， 我 们 和 党 名 得 把 字符 串 执 头 去 尾 ， 残 用 得 上 和 它们。 如 条 
strip([chars])、lstrip([chars])、rstrip([chars]) 中 的 chars 参 数 没有 指定 ， 就 
是 删除 空白 符 ， 空 白 符 由 string.whitespace 常 量 定义 。 填 充 则 常用 于 字 
符 串 的 输出 ， 借 助 它们 能 够 排出 漂亮 的 版 面 。center(width[, fillchar]) 、 
jjust(width[, fillchar]) ~ rjust(widthl, fillchar]) ~、 zfill(width) 、 
expandtabs([tabsize)， 看 ， 有 了 它们 ， 居 中 、 左 对 齐 、 右 对 齐 什么 的 
完全 不 在 话 下 ， 这 些 方法 中 的 和 lchar 参 数 是 指 用 以 填充 的 字符 ， 默 认 
是 空格 。 而 zfill0 中 的 z 是 指 zero， 所 以 顾名思义 ，zfill0 即 是 以 字符 0 进 
行 填充 ， 在 输出 数值 时 比较 常用 。expandtabs() 的 tabsize 参 数 默 认为 8， 
它 的 功能 是 把 字符 串 中 的 制 表 符 (tab) 转换 为 适当 数量 的 空格 。 


建议 37: 按 需 选择 sort() 或 者 sorted() 


各 种 排序 算法 以 及 它们 的 时 间 复 杂 度 分 析 是 很 多 企业 面试 人 员 在 
面试 时 候 经 常会 问 到 的 问题 ， 这 也 不 难 理解 ， 在 实际 的 应 用 过 程 中 确 
实 会 遇 到 各 种 需要 排序 的 情况 ， 如 按照 字母 表 输出 一 个 序列 、 对 记录 
的 多 个 字段 排序 等 。 还 好 ，Python 中 的 排序 相对 简单 ， 常 用 的 函数 有 
sort0 和 sorted0 两 种 。 这 两 种 函数 并 不 完全 相同 ， 各 有 各 的 用 武之 地 。 
我 们 来 具体 分 析 一 下 。 


1) 相 比 于 sortD) ，sorted0 使 用 的 范围 更 为 广泛 ， 两 者 的 函数 形式 
ls 


sorted(iterable[, cmp[, key[, reverse]]]) 
s.sort([cmp[, key[, reverse]]]) 


这 两 个 方法 有 以 下 3 个 共同 的 参数 : 


:cmp 为 用 户 定 义 的 任何 比较 函数 ， 函 数 的 参数 为 两 个 可 比较 的 元 
素 (来 自 iterable 或 者 list) ， 函 数 根据 第 一 个 参数 与 第 二 个 参数 的 关系 
依次 返回 -1、0 或 者 +1 〈 第 一 个 参数 小 于 第 二 个 参数 则 返回 负数 ) 。 该 
参数 默认 值 为 None 。 


key 是 市 一 个 参数 的 玫 数 ， 用 来 为 每 个 元 聚 捉 取 比较 值 ， 稚 认为 
None 〈 即 直接 比较 每 个 元 素 ) 。 


reverse 表 示 排 序 结 采 是 否 反 转 。 


>>> persons = [{'name': 'Jon', 'age': 32}, {'"'name': 'Alan', 'age': 50}, {'name': 
'Bob', 'age': 23}] 
>>> sorted(persons, key=lambda x: (x['name'], -x['age'])) 


[{'age': 50, "name': 'Alan'}, {'age': 23, 'name': 'Bob'}, {'age': 32, "name': ' 
on'}] 


从 函数 的 定义 形式 可 以 看 出 ，sortedO 作 用 于 任意 可 迭代 的 对 象 ， 
而 sort( 一 般 作 用 于 列表 。 因 此 下 面 的 例子 中 针对 元 组 使 用 sort() 方 法 会 
抛 出 AttributeError， 而 使 用 sorted0 画 数 则 没有 这 个 问题 。 


>>> a = (1,2,4,2,3) 
>>> a.sort() 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
AttributeError: 'tuple' object has no attribute "Sort' 
>>> sorted(a) 
[1, 2, 2, 3, 4] 


2) 当 排 序 对 象 为 列表 的 时 候 两 者 适合 的 场景 不 同 。sorted() 了 范 数 
是 在 Python2.4 版 本 中 引入 的 ， 在 这 之 前 只 有 sort0 函 数 。sorted0 函 数 会 
返回 一 个 排序 后 的 列表 ， 原 有 列表 保持 不 变 ;， 而 sort(0 函 数 会 直接 修改 
原 有 列表 ， 画 数 返 回 为 None。 来 看 下 面 的 例子 : 


>>> a=['1',1, 'a',3,7, "'n'] 
>>> sorted(a) 

[1, 3, 7, 7 "ay mn 
>>> a 

[EL 1 'a', 3, 7, 'n'] 
>>> print a.sort() 

None 

>>> a 

[1, 3, 7, ST a 'n'] 
>>> 


因此 如 果实 际 应 用 过 程 中 需要 保留 原 有 列表 ， 使 用 sorted0 函 数 较 
为 适合 ， 否 则 可 以 选择 sort0 范 数 ， 因 为 sort0) 范 数 不 需 要 复制 原 有 列 
表 ， 消 耗 的 内 存 较 少 ， 效 率 也 较 高 。 


3) 无 论 是 sort() 还 是 sorted0) 函 数 ， 传 入 参数 key 比 传 入 参数 cmp 效 
率 要 高 。cmp 传 入 的 函数 在 整个 排序 过 程 中 会 调用 多 次 ， 函 数 开 销 较 


大 ; 而 key 针 对 每 个 元 素 仅 作 一 次 处 理 ， 因 此 使 用 key 比 使 用 cmp 效 率 
要 高 。 下 面 的 测试 例子 显示 使 用 key 比 cmp 约 快 50% 。 


>>> from timeit import Timer 

>>> Timer(stmt="sorted(xs,Kkey=lambda x:x[1])",setup="xs=range(100);xs=zip(xs,xs) 
;").timeit(10000) 

0.2900448249509081 

>>> 

>>> Timer(stmt="sorted(xs,cmp=lambda a,b: cmp(a[1],b[1]))",setup="xs=range(100); 
xs=zip(xs,xs);").timeit(10000) 

0.47374972749250155 

>>> 


4) sorted() 芳 数 功 能 非常 强大 ， 使 用 它 可 以 方便 地 针对 不 同 的 数 
据 结 构 进 行 排序 ， 从 而 满足 不 同 需 求 。 来 看 下 列 例 子 。 


.对 字典 进行 排序 : 下 面 的 例子 中 根据 字典 的 值 进行 排序 ， 即 将 
phonebook 对 应 的 电话 号 码 按 照 数字 大 小 进行 排序 。 


>>> phonebook = {'Linda': '7750', 'Bob': '9345', 'Carol': '5834'} 
>>> from operator import itemgetter 

>>> sorted_ pb = sorted(phonebook.iteritems(),Kkey=itemgetter(1)) 
>>> print Sorted_pb 

[('cCarol', '5834'), ('Linda', '7750'), ('Bob', '9345')] 

>>> 


-多 维 list 排 序 : 实际 情况 下 也 会 磁 到 需要 对 多 个 字段 进行 排序 的 
情况 ， 如 根据 学 生 的 成 绩 、 对 应 的 等 级 依次 排序 。 当 然 这 在 DB 里 面 用 
SQL 语句 很 容易 做 到 ， 但 使 用 多 维 列表 联合 sorted0 团 数 也 可 以 轻易 达 
到 类 似 的 效果 。 


>>> from operator import itemgetter 
>>> gameresult = [['Bob',95.00,'A'],['Alan',86.0,'C'],['Mandy',82.5,'A'],['Rob', 


分 别 表示 学 生 的 姓名 ， 成 绩 ， 等 级 

>>> sorted(gameresult , key=operator.itemgetter(2, 1)) 

[['Mandy', 82.5, 'A'], ['Bob', 95.0, 'A'], ['Alan', 86.0, 'C'], ['Rob', 86, 
'E'] # 


第 二 个 字段 成 绩 相 同 的 时 候 按照 等 级 从 低 到 高 排序 


dils 


.字典 中 混合 list 排 序 : 如 果 字 典 中 的 key 或 者 值 为 列表 ， 需 要 对 列 
表 中 的 某 一 个 位 置 的 元 素 排 序 也 是 可 以 做 到 的 。 下 面 的 例子 中 针对 字 
典 mydict 的 value 结 构 [n,m] 中 的 n 按 照 从 小 到 大 的 顺序 排列 。 


>>> We 二 ['M',7], 


I ['E',2], 
"wang': ['P',3], 
'Du': ['C',2], 
'Ma': ['c',9], 
'Zhe': ['H',7] } 


>>> 
>>> from operator import itemgetter 

>>> sorted(mydict.iteritems(), key=lambda (k,v): operator.itemgetter(1)(v)) 
[('zhang’, ['E'’, 2]), ("Du’, ['C', 2]), ("Wang', ['P', 3]), (Li, [MY, 71), (! 
Zhe', ['H', 7]), ('Ma', ['C', 91)] 


:List 中 混合 字典 排序 : 如 果 列 表 中 的 每 一 个 元 素 为 字典 形式 ， 需 
要 针对 字典 的 多 个 key 值 进行 排序 也 不 难 实现 。 下 面 的 例子 是 针对 list 
中 的 字典 元 素 按照 rating 和 name 进 行 排序 的 实现 方法 。 


>>> gameresult = [{ "name":"Bob", "wins":10, "losses":3, "rating":75.00 }, 
a { "name":"David", "wins":3, "losses":5, "rating":57.00 }, 
{ "name":"Carol", "wins":4, "losses":5, "rating":57.00 }, 
{ "name": "patty", "wins":9, "losses":3, "rating": 71.48 }] 
>>> from operator import itemgetter 
>>> | 5 key= operator. itemgetter("rating", "name")) 
Lt wins ， 4， 'Josses': 5, "name': 'Carol', 'rating': 57.0}, {'wins': 3, 'losses' 
; 5, 'Name': 'David', 'rating': 57.0}, {'wins': 9, 'losses': 3, 'Nname': 'Patty', 
"rating ' 71. 48}, {'wins':; 10, 'losses': 3, 'name': 'Bob', 'rating': 75.0}] 
>>> 


建议 38: 使 用 copy 模 块 深 找 由 对 象 


在 正式 讨论 本 市 内 容 之 前 我 们 先 来 了 解 一 下 浅 找 贝 和 深 堵 贝 的 概 


人 
FAN a 


: 浅 找 贝 (shallow copy) : 构造 一 个 新 的 复合 对 象 并 将 从 原 对 象 中 
发 现 的 引用 插入 该 对 象 中 。 浅 拷贝 的 实现 方式 有 多 种 ， 如 工厂 范 数 、 
切片 探 作 、copy 模 块 中 的 copy 操 作 等 。 


深 揽 贝 (deep copy) : 也 构造 一 个 新 的 复合 对 象 ， 但 是 遇 到 引用 
会 继续 递归 拷贝 其 所 指 回 的 具体 内 容 ， 也 丈 是 说 它 会 针对 引用 所 指 回 
的 对 象 继续 执行 拷贝 ， 因 此 产生 的 对 象 不 受 其 他 引用 对 象 操作 的 影 
啊 。 深 找 贝 的 实现 需要 依赖 copy 模块 的 deepcopy() 操 作 。 


下 面 我 们 通过 一 段 简 单 的 程序 来 说 明 浅 拷贝 和 深 找 贝 之 间 的 区 


别 ” 


Import copy 
class Pizza(object): 
def _ init (self,name,size,price): 
self .name=name 
self.size=size 
self.price=price 
def getPizzaInfo(self): 
0 
日 3 = 


户 /CE 


return self.name, self.size,self.price 
def showPizzaInfo(self): 
显示 Pizza 


信息 


print "Pizza name:"+self.name 
print "Pizza size:"+str(self.size) 
print "Pizza price:"+str(self.price) 
def changeSizel(self,size): 
self.size=size 
def changePrice(self,price): 
self.price=price 
class Order(object): 
(订单 类 


def _ init (self,name): 
self.customername=name 
self.pizzaList=[] 
self .pizzaList.append(Pizza("Mushroom", 12,30)) 


def ordermore(self,pizza): 
self.pizzaList.append(pizza) 
def changeName(self,name): 
self .customername=name 
def getorderdetail(self): 
print "customer name:"+self.customername 
for i in self.pizzaList: 
i,.showPizzaInfo() 
def getPizza(self,number): 
return self.pizzaList[number] 
customer1=Order("zhang") 
customer1.ordermore(Pizza("seafood",9,40)) 
customer1.ordermore(Pizza("fruit",12,35)) 
print "customer1 order infomation:" 
customer1.getorderdetail() 
print -i 


程序 描述 的 是 客户 在 Pizza 店 里 下 了 一 个 订单 ， 并 将 具体 的 订单 信 
轧 打 印 出 来 的 场景 。 运 行 输出 结 采 如 下 : 


customer name:zhang 
Pizza name:Mushroom 
Pizza size:12 

Pizza price:30 
Pizza name:seafood 
Pizza size:9 

Pizza price:40 
Pizza name:fruit 
Pizza size:12 

Pizza price:35 


假设 现在 客户 2 也 想 下 一 个 跟 客 户 1 一 样 的 订单 ， 只 是 要 将 预定 的 
水 和 东 披 院 的 太 寸 和 价格 进行 相应 的 修改 。 于 坪 服 务 员 拷贝 了 客户 1 的 订 
单 信息 并 做 了 一 定 的 修改 ， 代 码 如 下 : 


customer2=copy.copy(customer1) 

print "order 2 customer name:"+customer2.customername 
customer2.changeName("1i") 
customer2.getPizza(2).changeSize(9) 
customer2.getPizza(2).changePrice(30) 

print "customer2 order infomation:" 
customer2.getorderdetail() 

print -i 由 


上 面 这 段 程序 的 输出 也 没有 什么 问题 ， 完 全 满足 了 客户 2 的 需求 。 
答 出 结果 如 下 所 示 ; 


order 


2 customer name:zhang 


customer2 order infomation: 
customer name:1i 


Pizza 


name :Mushroom 
size:12 
price:30 
name: seafood 
size:9 
price:40 
name:fruit 
size:9 
price:30 


在 修改 完 客 户 2 的 订单 信息 之 后 ， 现 在 我 们 再 来 检查 一 下 客户 1 的 
订单 信息 : 


print 


"customer1 order information:" 


customer1.getorderdetail() 


你 会 发 现 客户 1 的 订单 内 容 除 了 客户 姓名 外 ， 其 他 的 居然 和 客户 2 


的 订单 具 


体内 容 一 样 了 。 


customer1 order infomation: 
customer name:zhang 


Pizza 
Pizza 
Pizza 
Pizza 
Pizza 
Pizza 
Pizza 
Pizza 
Pizza 


name :Mushroom 
size:12 
price:30 
name: seafood 
size:9 
price:40 
name:fruit 
size:9 
price:30 


苹 怎 么 回 事 呢 ? 客户 1 根本 没 要 求 修改 订单 的 内 容 ， 这 样 的 结 


hd 。 问题 出 现在 哪里 ? 这 是 我 们 本 市 要 重 
点 讨论 的 内 容 。 我 们 先 来 分 析 客 户 1 和 客户 2 订单 内 容 的 关系 图 ， 如 图 4- 


1 所 示 。 


customerl customer2 


CustomerName='zhang' 


CustomerName= 澳 ' 


plzzalist 


pizzalist 


ee 


plzza pizza 


Name = mushroom 


Name = seafood 
slzZe=9 
Price=40 


图 4-1 客户 1 和 客户 2 订单 的 关系 示意 


Name = fruit 
size=12-->9 


size=12 


Price=30 


customer1 中 的 pizzaList 是 一 个 由 Pizza 对 象 组 成 的 列表 ， 其 中 存放 
的 实际 是 对 一 个 个 基体 Pizza 对 辊 的 | 用 ， 在 内 存 中 就 是 一 个 具体 的 地 
址 ， 可 以 通过 查看 id 得 到 相关 信息 。 


print id(customer1.pizzaList[0]) 
输出 14099440 
print id(customer1.pizzaList[1]) 
输出 14101392 
print id(customer1.pizzaList[2]) 
输出 14115344 
print id(customer1.pizzaList) 


i 13914800 


tb 


customer2 的 订单 通过 copycopy(customer1l) 获得 ， 通 过 id 函数 查看 
customer2 中 pizzaList 的 具体 Pizza 对 季 你 全 会 发 现 Ef 门 和 customer1 中 的 输 
出 是 一 样 的 (读者 可 以 自行 验证 ) 。 这 是 由 于 通过 copy.copy0 得 到 的 


customer2 是 customer1l 的 一 个 浅 拷贝 ， 它 仅仅 拷贝 了 pizzalist 里 面 对 象 的 
地 址 而 不 对 对 应 地 址 所 指向 的 具体 内 容 ( 即 具体 的 pizza) 进行 拷贝 ， 

因此 customer2 中 的 pizzaList 所 指 疝 的 具体 内 容 是 和 customer1 中 一 样 

的 ， 如 图 4-1 所 示 。 所 以 对 pizza fruit 的 修改 直接 影响 了 customer1l 的 订单 
内 容 。 实 际 上 在 包含 引用 的 数据 结构 中 ， 浅 拨 贝 并 不 能 进行 彻 的 的 搂 
贝 ， 当 存在 列表 、 字 上 典 等 不 可 变 对 象 的 了 时候 ， 它 仅仅 拷贝 其 引用 地 
址 。 要 解决 上 述 问 题 需要 用 到 深 揽 贝 ， 深 拷贝 不 仅 拷 贝 引 用 也 找 贝 引 
用 所 指向 的 对 象 ， 因 此 深 找 贝 得 到 的 对 象 和 原 对 象 是 相互 独立 的 。 


上 面 的 例子 充分 展示 了 浅 找 贝 和 深 找 贝 之 则 的 差异 ， 在 实际 应 用 
中 要 特别 注意 这 两 者 之 间 的 区 别 。 实 际 上 Python copy 模 块 提 供 了 与 浅 
拷贝 和 深 找 贝 对 应 的 两 种 方法 的 实现 ， 通 过 名 字 便 可 以 轻易 进行 区 
分 ， 模 块 在 拷贝 出 现 异 常 的 时 候 会 抛 出 copy.error 。 


QFP Copy(X) 

: eturn a shallow copy of x. 

So deepcopy(X) 

: turn a deep copy of x. 

ee copy.error 

: Raised for module specific errors. 


实际 上 ， 上 面 的 程序 应 该 将 customer2=copy.copy(customer1) 改 为 
copy.deepcopy(0) 来 实现 (请 读者 自行 验证 ) 。 关 于 对 象 拷贝 读者 可 以 查 
看 网 页 http://en.wikipedia.org/wiki/Object_copy 进 行 阅读 扩展 。 


建议 39: 使 用 Counter 进 行 计数 统计 


计数 统计 相信 大 家 都 不 卫生， 简单 地 说 就 是 统计 某 一 项 出 现 的 次 
数 。 实 际 应 用 中 很 多 需求 都 需要 用 到 这 个 模型 ， 如 检测 样本 中 某 一 值 
出 现 的 次 数 、 日 志 分 析 某 一 消 居 出 现 的 频率 、 分 析 文 件 中 相同 字符 串 
出 现 的 概率 等 。 这 种 类 似 的 需求 有 很 多 种 实现 方法 。 我 们 逐一 来 看 一 
下 使 用 不 同 数据 结构 时 的 实现 方式 。 


1) 使 用 dict 。 


>>> some_data 二 ['a', '2',2;4;5, 2 'b',4,7, 'a',5, 'd', 'a', 'zZ'] 
>>> count_frq = dict() 
>>> for item In some_data: 
If item in count_frq: 
count_frq[item] +=1 
else: 
count_frq[item] = 1 


>>> print count_frq 
{a': 3 27 1, b': 1, 4: 2; 57 2, 7: 1, 2 2, "Zz 1 "'d'’": 1} 


2) 使 用 defaultdict 。 


>>> from collections import defaultdict 
>>> Some_data = ['a','2',2,4,5,'2','b',4,7,'a',5,'d','a','z'] 
>>> count_frq = defaultdict(int) 
>>> for item in some_data.: 
count_frq[item] += 1 


>>> print count_frq 
defaultdict(<type 'int'>, {'a': 3, 2; 1, 'b': 1, 4: 2, 5: 2, 7: 1, '2': 2, 'z 
1, 'd': 1}) 


3) 使 用 set 和 list 。 


>>> Some_data = ['a','2',2,4,5,'2','b',4,7,'a',5,'d','a','z'] 
>>> count_set = set(some_data) 
>>> count_list = [] 
>>> for item in count_set: 
count_list.append((item,some_ data.count(item))) 


>>> print count_list 
人 


上 面 的 方法 都 比较 简单 ， 但 有 没有 更 优雅 、 更 Pythonic 的 解决 方 


法 呢 ? 答案 是 使 用 collections.Counter 。 


>>> from collections import Counter 

>>> Some_data = ['a','2',2,4,5,'2','b',4,7,'a',5,'d','a','z'] 

>>> print Counter(some_data) 

Counter({'a’ 3 4 2; 5 2 T2527 27 1, bi 1; 75 1 “20 1 "dd 1}) 


Counter 类 是 目 Python2.7 起 增加 的 ， 属 于 字典 类 的 子 类 ， 是 一 个 容 
需 对 象 ， 主 要 用 来 统计 散 列 对 象 ， 文 持 集 合 操作 +、-、&、|， 其 中 人 
和 | 操作 分 别 返回 两 个 Counter 对 象 各 元 聚 的 最 小 值 和 最 大 值 。 它 提供 了 
3 种 不 同 的 方式 来 初始 化 : 


Counter("success") # 
可 迭代 对 象 
Counter(s=3,c=2,e=1, Uu=1) # 
关键 字 参 数 
Counter({"s":3,"c":2,"U":1,"e":1}) # 


于 AS 


可 以 使 用 elements() 方 法 来 获取 Counter 中 的 key 值 。 


>>> list(Counter(some_ data).elements()) 
['a', 'a', 'a', 2, 'b', 4, 4, 5, 5， 7， 2 2 rz 'd'] 


利用 most_common(0) 方 法 可 以 找 出 前 N 个 出 现 频 率 最 高 的 元 素 以 及 
它们 对 应 的 次 数 。 


>>> Counter(some_data).most_common(2) 
[('a', 3), (4, 2)] 


当 访 问 不 存在 的 元 素 时 ， 默 认 返 回 为 0 而 不 征 抛 出 KeyError 寞 筑 。 


(Counter(Some_data))['y'] 
update0) 方 法 用 于 被 统计 对 象 元 素 的 更 新 ， 原 有 Counter 计 数 姨 对 
象 与 新 增 元 素 的 统计 计数 值 相 加 而 不 是 直接 替换 它们 。 


subtract() 方 法 用 于 实现 计数 恬 对 象 中 元 素 统 计 值 相 减 ， 输 入 和 输 
出 的 统计 值 允 许 为 0 或 者 负数 。 


>>> C = Counter("success") #Counter({ 3 3 


>>> c.update( "successfully") #" SB “Cre 2 SE 27 TU 27 ev; Sf 1; 
1 人 1 本 
#5 
1 
中 对 应 值 的 和 


Counter({'s': 6, 'c': 4, 'U': 3, 'e': 2, '1':; 2, 'f'; 1, 'y': 1}) 
>>> C， subtract ("successfully") 

>>> C 

Counter({'s': 3，'Cc 2, 'e'; 1, 'U': 1, 'f'; 0, '1':; 0, 'y': 0}) 


建议 40: 深入 掌握 ConfigParser 


几乎 所 有 的 应 用 程序 真正 运行 起 来 的 时 候 ， 都 会 读 取 一 个 或 几 个 
配置 文件 。 配 置 文 件 的 意义 在 于 用 户 不 需要 修改 代码 ， 就 可 以 改变 应 
用 程序 的 行为 ， 让 它 更 好 地 为 应 用 服务 。 比 如 pylint 就 带 有 一 个 参数 -- 
rcfile 用 以 指定 配置 文件 ， 实 现 对 自 定义 代码 风格 的 检测 。 常 见 的 配置 
文件 格式 有 XML 和 ini 等 ， 其 中 在 MS Windows 系 统 上 ，ini 文 件 格 式 用 
得 尤其 多 ， 甚 至 操作 系统 的 API 也 都 提供 了 相关 的 接口 函数 来 支持 
它 。 类 似 ini 的 文件 格式 ， 在 Linux 等 操作 系统 中 也 是 极 常用 的 ， 比 如 
pylint 的 配置 文件 就 是 这 个 格式 。 但 凡 这 种 常用 的 东西 ，Python 都 有 个 
标准 库 来 文 持 它 ， 也 残 是 ConfigParser。 


ConfigParser 的 基本 用 法 通过 手册 可 以 掌握 ， 但 是 仍然 有 几 个 知识 
扩 值 得 在 这 里 跟 大 家 说 一 下 。 前 先 束 是 getboolean() 这 个 函数 。 
getboolean() 根 据 一 定 的 规则 将 配置 项 的 值 转换 为 布尔 值 ， 如 以 下 的 配 
置 : 


[section1] 
option1=0 


当 调用 getboolean('section1', 'optioin1) 时 ， 将 返回 False。 不 过 
getboolean() 的 真 值 规则 值得 一 说 除了 0 之 外 ，no、false 和 off 都 会 被 
转 义 为 False， 而 对 应 的 1、yes、true 和 on 则 都 被 转 义 为 True， 其 他 值 都 
会 导致 抛 出 ValueError 异 常 。 这 样 的 设计 非常 贴心 ， 使 得 我 们 能 够 在 不 
同 的 场合 使 用 yes/no、true/false、on/off 等 更 切合 上 自然 语言 语法 的 词 
汇 ， 提 升 配 置 文件 的 可 维护 性 。 


除了 getboolean0 之 外 ， 还 需要 注意 的 是 配置 项 的 查找 规则 。 首 
和 完 ， 在 ConfigParser 文 持 的 配置 文件 格式 里 ， 有 一 个 [DEFAULT] 廊 ， 当 
读 取 的 配置 项 在 不 在 指定 的 节 里 时 ，ConfigParser 将 会 到 [DEFAULT] 节 
中 查找 。 举 个 例子 ， 有 如 下 配置 文件 : 


$ cat example.conf 

[DEFAULT] 

in_default = "an option value in default' 
[section1] 


人 简单 地 编写 一 段 程 序 尝 试 通过 section1 获 取 in_default 的 值 。 


$ cat readini.py 

import ConfigParser 

conf = ConfigParser. ConfigParser() 

Conf ,read( example. conf' 

print conf.get('section1i', 'in_default') 


运行 结 末 如 下 : 


$ python readini,py 
"an option Value in default' 


可 见 ConfigParser 的 行为 跟 上 文摘 述 是 一 致 的 。 不 过 ， 除 此 之 外 ， 
还 有 一 些 机 制导 致 项 目 对 配置 项 的 查找 更 复杂 ， 这 残 是 class 
ConfigParser 构 造 函 数 中 的 defaults 形 参 以 及 其 get(section, option[, raw[， 
vars]]) 中 的 全 名 参数 vars。 如 果 把 这 些 机 制 全 部 用 上 ， 那 么 配置 项 值 的 
查找 规则 如 下 : 


1) 如 果 找 不 到 节 名 ， 就 抛 出 NoSectionError。 


2) 如 果 给 定 的 配置 项 出 现在 get0 方 法 的 vars 参 数 中 ， 则 返回 vars 
参数 中 的 值 。 


3) 如 果 在 指定 的 节 中 含有 给 定 的 配置 项 ， 则 返回 其 值 。 
4) 如 果 在 [DEFAULT] 中 有 指定 的 配置 项 ， 则 返回 其 值 。 


5) 如 果 在 构造 函数 的 defaults 参 数 中 有 指定 的 配置 项 ， 则 返回 其 
值 。 


6) 抛 出 NoOptionError。 


因为 篇 幅 所 限 ， 这 里 就 不 提供 示例 了 ， 大 家 可 以 目 行 构造 相应 的 
例子 来 验证 。 接 下 来 要 讲 的 古 第 三 个 特点 。 大 家 知道 ， 在 Python 中 子 
符 系 格式 化 可 以 使 用 以 下 语法 : 


>>> ed re 人 %(port)s/' % { protocol': http ， 
"SerVver ' ‘example. Com ' 
'port， :1080} 
'http://example.com:1080/" 


其 实 ConfigParser 文 持 类 似 的 用 法 ， 所 以 在 配置 文件 中 可 以 使 用 。 
如 ， 有 如 下 配置 选项 : 


$ cat format ,conf 

[DEFAULT] 

conn_str = %(dbn)s://%(user)s:%(pw)s@%(host)s:%(port)s/%(db)s 
dbn = mysql 

user = root 

host=localhost 

port = 3306 


pw=ppp 
db=example 

[db2] 
host=192.168.0.110 
pw=www 
db=example 


这 是 一 个 很 常见 的 SQLAlchemy 应 用 程序 的 配置 文件 ， jo 
配置 文件 能 够 获取 不 同 的 数据 库 配 置 相应 的 连接 字符 串 ， ss str 。 
如 你 所 见 ，conn_str 定 义 在 [DEFAULT] 中 ， 但 当 它 通过 不 同 的 节 名 来 获 


取 格 式 化 后 的 值 时 ， 根 据 不 同 配置 ， 得 到 不 同 的 值 。 先 来 看 以 下 代 
码 : 


$ cat readformatini.py 

import ConfigParser 

conf = ConfigParser. ConfigParser() 
conf .read( 'format ,conf ' ) 

print conf ,get( 'db1'， 'conn_str') 
print conf ,get( 'db2'， 'conn_str') 


非常 简单 的 代码 ， 就 是 通过 ConfigParser 获 取 db1l 和 db2 两 个 节 的 配 
置 。 然 后 看 如 下 输出 : 


$ python readformatini.py 
mysql://aaa:ppp@localhost:3306/example 
mysql://root:www@192.168.0.110:3306/example 


可 以 看 到 ， 通过 个 同 的 太 名 调用 getO 方 法 时 ， 格 式 化 conn_str 的 
参数 是 不 同 的 ， 这 个 规则 跟 上 述 查 找 配置 项 的 规则 相同 。 


建议 41: 使 用 argparse 处 理 命令 行 参数 


尽管 应 用 程序 通常 能 够 通过 配置 文件 在 不 修改 代码 的 情况 下 改变 
行为 ， 但 提供 灵活 易 用 的 命令 行 参 数 依然 非 第 有 意义 ， 比 如 : 减轻 用 
户 的 学 习 成 本 ， 通 利 命 令 行 参数 的 用 法 只 需要 在 应 用 程序 名 后 面 加 -- 
help 参 数 束 能 获得 ， 而 配置 文件 的 配置 方法 通常 需要 通读 手册 才能 掌 
握 ; 同一 个 运行 环境 中 有 多 个 配置 文件 存在 ， 那 么 需要 通过 命令 行 参 
数 指定 当前 使 用 哪 一 个 配置 文件 ， 如 pylint 的 --rcfile 参 数 就 是 做 这 个 事 
国字 


为 了 做 好 命令 行 处 理 这 件 事 ，Pythonista 党 试 好 几 个 方案 ， 标 准 库 
中 留 下 的 getopt、optparse 和 argparse 就 是 证 明 。 其 中 getopt 是 类 似 UNIX 
系统 中 getopt0) 这 个 C 函 数 的 实现 ， 可 以 处 理 长 短 配 置 项 和 参数 。 如 有 
命令 行 参 数 -a -b -cfoo -d bar al a2， 在 处 理 之 后 的 结果 是 两 个 列表 ， 其 
中 一 个 是 配置 项 列表 [(-a', "), (-b', "), (-c', foo), (-d', "bar)]， 每 一 个 元 
素 都 由 配置 项 名 和 其 值 (默认 为 空 字符 串 ) 组 成 ， 男 一 个 是 参数 列表 
[al, 'a2]， 每 一 个 元 素 都 是 一 个 参数 值 。getopt 的 问题 在 于 两 点 ， 一 个 
是 长 短 配 置 项 需要 分 开 处 理 ， 二 是 对 非法 参数 和 必 填 参数 的 处 理 需 要 
手动 。 如 : 


try: 
opts, args = getopt.getopt(sys.argv[1:], "ho:v", ["help", "output="]) 
except getopt.GetoptError as err: 
print str(err) # 
此 处 输出 类 似 "option -a not recognized" 
的 出 错 信息 
Usage() 
sys.exit(2) 
output = None 
verbose = False 
for o, a in opts: 
if 0 == "-Vv": 
verbose = True 
elif o in ("-h", "--help"): 
Usage() 
sys.exit() 
elif o in ("-o", "--Ooutput"): 


output = a 
else: 
assert False, "unhandled option" 


从 for 循 环 处 可 以 看 到 ， 这 种 处 理 非常 原始 和 不 便 ， 而 从 
getopt.getopt(sys.argv[1:], "ho:v", ["help", "output="]) 芳 数 调用 时 的 "ho:v" 
和 ["help", "output="] 两 个 实 参 可 以 看 出 ， 要 编写 和 维护 还 是 比较 困难 
的 ， 所 以 optparse 就 登场 了 。 、 强劲， 与 C 
风格 的 getopt 不 同 ， 它 采用 的 是 声明 式 风 格 ， 此 外 ， 它 还 能 够 目 动 生成 
应 用 程序 的 帮助 信息 。 下 面 是 一 个 例子 : 


from optparse import OptionParser 
parser = OptionParser() 
parser.add_option("-f", "--file", dest="filename", 
help="write report to FILE", metavar="FILE") 
parser.add_option("-q", "--quiet", 
action="store_false", dest="verbose", default=True, 
help="don't print status messages to stdout") 
(options, args) = parser.parse_args() 


可 以 看 到 add_option() 方 法 非常 强大 ， 同 时 支持 长 短 配 置 项 ， 还 有 
默认 值 、 帮 助 信息 等 ， 人 简单 的 几 行 代码 ， 可 以 支持 非常 丰富 的 命令 行 
接口 。 如 ， 以 下 几 个 都 是 合法 的 应 用 程序 调用 : 


<yourscript> -f outfile --quiet 
<yourscript> --quiet --file outfile 
<yourscript> -q -foutfile 
<yourscript> -qfoutfile 


0 虽然 没有 声明 帮助 参数 ， 但 默认 给 加 上 了 -h 或 --help 文 
持 ， 通 过 这 两 个 参数 调用 应 用 程序 ， 可 以 看 到 目 动 生成 的 帮助 信息 。 


Usage: <yourscript> [options] 
Options: 
-h, we show this help message and exit 
-f FILE, --file=FILE write report to FILE 
-0q, et don't print status messages to stdout 


不 过 optparse 虽 然 很 好 ， 但 是 后 来 出 现 的 argparse 在 继承 了 它 声 明 
式 风 格 的 优点 之 外 ， 又 多 了 更 丰富 的 功能 ， 所 以 现 阶段 最 好 用 的 参数 
处 理 标准 库 是 argparse， 使 optparse 成 为 了 一 个 被 弃 用 的 库 。 


因为 argparse 目 optparse 脱 胎 而 来 ， 所 以 用 法 侄 也 大 致 相同 ， 都 是 
先生 成 一 个 parser 实 例 ， 然 后 增加 参数 声明 。 如 上 文中 getopt 的 那个 例 
子 ， 可 以 用 其 改造 为 如 下 形式 : 


import argparse 

parser = argparse.ArgumentParser() 

parser.add_argument('-o', '--output') 

parser.add argument('-v', dest='verbose', action='store true') 
args = parser.parse_args() 


可 以 看 到 ， 代 码 大 大 地 减 化 了 ， 代 码 更 少 ，bug 更 少 。 与 optparse 
中 的 add_option0 类 似 ，add_argument(0) 方 法 用 以 增加 一 个 参数 声明 。 与 
add_option0 相 比 ， 它 有 几 个 方面 的 改进 ， 其 中 之 一 就 是 支持 类 型 增 
多 ， 而 且 语法 更 加 直观 。 表 现在 type 参 数 的 值 不 再 是 一 个 字符 串 ， 而 
是 一 个 可 调用 对 象 ， 比 如 在 add_option0 调 用 时 是 type="int"， 而 在 
add_argument() 调 用 时 直接 写 type=int 就 可 以 了 。 除 了 支持 常规 的 
int/float 等 基本 数值 类 型 外 ， argparse 还 支持 文件 类 型 ， 只 要 参数 合法 ， 
程序 就 能 够 使 用 相应 的 文件 描述 符 。 如 : 


>>> parser = argparse.ArgumentParser() 

>>> parser.add argument('bar', type=argparse.FileType('w')) 
>>> parser.parse args(['out.txt']) 

Namespace(bar=<open file 'out.txt', mode 'w' at Ox...>) 


另外， 扩展 类 型 也 变 得 更 加 容易 ， 任 何 可 调用 对 象 ， 比 如 函数 ， 
都 可 以 作为 type 的 实 参 。 与 type 类 似 ，choices 参 数 也 支持 更 多 的 类 型 ， 
而 不 是 像 add_option 那 样 只 有 字符 串 。 比 如 下 面 这 人 句 代 码 是 合法 的 : 


parser.add_argument('door', type=int, choices=range(1, 4)) 


此 外 ，add_argument() 提 供 了 对 必 填 参数 的 支持 ， 只 要 把 required 
参数 设置 为 True 传递 进去 ， 当 缺失 这 一 参数 时 ，argparse 就 会 目 动 退出 
程序 ， 并 提示 用 户 。 


如 果 仅 仅 是 add_argumentO 比 add_option0 更 加 强大 一 点 ， 并 不 足以 
让 它 把 optparse 跑 出 标准 库 ，ArgumentParser 下 支持 参数 分 组 。 
add_argument_group0 可 以 在 输出 帮助 信息 时 更 加 清晰 ， 这 在 用 法 复杂 
的 CLUSY 用 程序 中 非常 有 帮助 ， 比 如 setuptools 配 套 的 setup.py 文 件 ， 如 
果 运 行 python setup.py help 可 以 看 到 它 的 参数 是 分 组 的 。 下 面 是 一 个 简 
单 的 示例 ; 


>>> parser = argparse.ArgumentParser(prog='PROG', add_help=False) 
>>> group1 = parser.add argument_group('group1i', 'group1 description') 
>>> groupl1.add_argument('foo', help='foo help') 
>>> group2 = parser.add_ argument_group('group2', 'group2 description') 
>>> group2.add_argument('--bar', help='bar help') 
>>> parser .print_help() 
usage: PROG [--bar BAR] foo 
group1: 
group1 description 
foo foo help 
group2: 
group2 description 
--bar BAR bar help 


如 宁 仅 仅 是 更 加 漂亮 的 帮助 信息 输出 不 够 吸引 你 ， 那 么 
add_mutually_exclusive_group(required=False) 束 非常 实用 : 它 确保 组 中 
的 参数 至 少 有 一 个 或 者 只 有 一 个 (required=True) 。 


argparse 也 支持 子 命令 ， 比 如 pip 束 有 install/uninstall/freeze/list/show 
等 子 命令 ， 这 些 子 命令 又 接受 不 同 的 参数 ， 使 用 
ArgumentParser.add_subparsers() 就 可 以 实现 类 似 的 功能 。 


>>> import argparse 

>>> parser = argparse.ArdumentParser(prog='PROG ' ) 

>>> Subparsers = parser.add_ subparsers(help="'sub-command help') 
>>> parser_a = subparsers.add parser('a', help='a help') 

>>> parser_a.add argument('--bar', type=int, help='bar help') 
>>> parser.parse args(['a', '--bar', '1']) 

Namespace(bar=1) 


看 ， 就 是 这 么 简单! 除了 参数 处 理 之 外 ， 当 出 现 非法 参数 时 ， 用 
户 还 需要 做 一 些 处 理 ， 处 理 完 成 后 ， 一 般 是 输出 提示 信息 并 退出 应 用 
程序 。ArgumentParser 提 供 了 两 个 方法 函数 ， 分 别 是 exit(status=0， 
message=None) 和 error(message)， 可 以 省 了 import sys 再 调用 sys.exit(O) 的 
步骤 。 


虽然 argparse 已 经 非常 好 用 ， 但 是 上 进 的 Pythonista 并 没有 止步 ， 
所 以 他 们 发 明了 docopt， 可 以 认为 ， 它 是 比 argparse 更 先进 更 易 用 的 命 
令 行 参 数 处 理 需 。 它 甚至 不 需要 编写 代码 ， 只 要 编写 类 似 argparse 输 
出 的 帮助 信息 即 可 。 这 是 因为 它 根据 常见 的 帮助 信息 定义 了 一 套 领 域 
村 定语 言 (DSL) ， 通 过 这 个 DSL Parser 参 数 生成 处 理 命令 行 参数 的 
代码 ， 从 而 实现 对 命令 行 参数 的 解释 。 因 为 docopt 现 在 还 不 是 标准 
库 ， 所 以 在 此 不 多 介绍 ， 有 兴趣 的 读者 可 以 自行 去 其 官网 

(http://docopt.org/) 学 习 。 


建议 42: 使 用 pandas 处 理 大 型 CSV 文 件 


CSV (Comma Separated Values) 作为 一 种 逗号 分 隔 型 值 的 纯 文 本 
格式 文件 ， 在 实际 应 用 中 经 常用 到 ， 如 数据 库 数 据 的 导入 导出 、 数 据 
分 析 中 记录 的 存储 等 。 因 此 很 多 语言 都 提供 了 对 CSV 文 件 处 理 的 模 
块 ，Python 也 不 例外 ， 其 模块 csv 提 供 了 一 系列 与 CSV 处 理 相 天 的 API 。 
我 们 先 来 看 一 下 其 中 几 个 常见 的 API: 


1) reader(csvfile[, dialect='excel"][, fmtparam])， 主 要 用 于 CSV 文 件 
的 读 取 ， 返 回 一 个 reader 对 象 用 于 在 CSV 文 件 内 容 上 进行 行 送 代 。 


参数 csvfile， 需 要 是 支持 迭代 (Iterator) 的 对 象 ， 通 常 对 文件 
(file) 对 象 或 者 列表 (list) 对 象 都 是 适用 的 ， 并 且 每 次 调用 next() 方 
法 的 返回 值 是 字符 串 (string) ; 参数 dialect 的 默认 值 为 excel， 与 excel 
兼容 ;fmtparam 是 一 系列 参数 列表 ， 主 要 用 于 需要 履 盖 默认 的 Dialect 设 
置 的 情形 。 当 dialect 设 置 为 excel 的 时 候 ， 默 认 Dialect 的 值 如 下 : 


class excel(Dialect): 


delimiter = " # 
单个 字符 ， J 段 


quotechar = 

] 对 特殊 符号 加 引 号 带 见 的 引号 为 
doublequote = True 

于 控制 quotechar 

符号 出 现 的 时 候 的 表现 形式 
skipinitialspace = False # 
设置 为 true 

的 时 候 delimiter 

后 面 的 空格 将 会 忽略 


1 ineterminator = = '\r\n' # 
行 结束 符 

duoting = QUOTE_MINIMAL 
是 要 在 字 让 前 加 引号 QUOTE_MINIMAL 
表示 仅 当 一 个 


字段 包 
含 引号 或 者 定义 符号 写 的 时 候 才 加 引号 


2) csv.writer(csvfile, dialect='excel', **fmtparams)， 用 于 写 入 CSV 文 
件 。 参 数 同上 。 来 看 一 个 使 用 例子 。 


with open('data.csv', 'wb') as csvfile: 


csvwriter = csv.writer(csvfile, dialect='excel',delimiter="|",quotechar="'"", 
quoting=csv .QUOTE_MINIMAL) 
csvwriter .writerow(["1/3/09 14:44","'Product1'","1200''", "Visa","Gouya"]) 
## 
写 入 行 
输出 形式 为 :1/3/09 14:44| "Product1'11200''|1VisalGouya 


3) csv.DictReader(csvfile, fieldnames=None, restkey=None, 
restval=None, dialect='excel', *args, *#+kwds)， 同 reader() 方 法 类 似 ， 不 同 
的 是 将 读 入 的 信息 映射 到 一 个 字典 中 去 ， 其 中 字典 的 key 由 fieldnames 指 
定 ， 该 值 省 略 的 话 将 使 用 CSV 文 件 第 一 行 的 数据 作为 key 值 。 如 果 读 入 
行 的 字段 的 个 数 大 于 fednames 中 指定 的 个 数 ， 多 余 的 字段 名 将 会 存放 
在 restkey 中 ， 而 restval 主 要 用 于 当 读 取 行 的 域 的 个 数 小 于 fieldnames 的 
时 候 ， 它 的 值 将 会 被 用 作 剩 下 的 key 对 应 的 值 。 


4) csv.DictWriter(csvfile, fieldnames, restval=", extrasaction='Taise ， 
dialect='excel', *args, **kwds)， 用 于 支持 字典 的 写 入 。 


import csv 
#Dictwriter 


with open('test.csv', 'wb') as csv_file: 

# 

设置 列 名 称 
FIELDS = ['Transaction date', 'Product', 'Price', 'Payment_Type'] 
writer = csv.Dictwriter(csv_file, fieldnames=FIELDS) 


# 
写 入 列 名 称 
writer.writerow(dict(zip(FIELDS, FIELDS))) 
d = {'Transaction date':'1/2/09 6:17','Product':'Product1', 'Price':'1200', 
'Payment_Type':'Mastercard'} 
# 
写 和 一行” Writer .writerow(d) 
with open('test.csv', 'rb') as csv_file: 
for d in csv.DictReader(csv_file): 
print d 
#0utput d is:{'Product': "Product1'， 'Transaction date': '1/2/09 6:17', 
"Price': '1200', 'Payment_Type': 'Mastercard'} 


csv 模 块 使 用 非常 们 单 ， 基 本 可 以 满足 大 部 分 需求 。 但 你 有 没有 思 
考 过 这 个 问题 : 有 些 应 用 中 需要 解析 和 处 理 的 CSV 文 件 可 能 有 上 百 MB 
甚至 儿 个 GB， 这 种 情况 下 csv 模 块 是 否 能 够 应 付 呢 ? 先 来 做 个 实验 ， 临 


时 创建 一 个 1GB 的 CSV 文 件 并 将 其 加 载 到 内 存 中 ， 看 看 会 有 什么 问题 发 
生 。 


>>> f = open('large.csv', "wb") 

>>> f.seek(1073741824-1) # 
创建 大 文件 的 技巧 

>>> f.write("\0") 

>>> f.close() 

>>> import os 

>>> os.stat("large.csv").st_size # 
输出 文件 的 大 小 


1073741824L 
>>> with open("large.csv", "rb") as csvfile: 
mycsv = csv.reader(csvfile,delimiter=';") 
for row in mycsyv: 
print row 


Traceback (most recent call last): 

File "<stdin>", line 3, in <module> 
MemoryError # 
发 生 了 内 存 异常 
>>> 


上 面 的 例子 中 当 企 图 读 入 这 个 CSV 文 件 的 时 候 抛 出 了 MemoryError 
异常 。 这 是 为 什么 ?因为 csv 模 块 对 于 大 型 CSV 文 件 的 处 理 无 能 为 力 。 
这 种 情况 下 就 需要 考虑 其 他 解决 方案 了 ，pandas 模 块 便 是 较 好 的 选择 。 


Pandas 即 Python Data Analysis Library， 是 为 了 解决 数据 分 析 而 创建 
的 第 三 方 工具 ， 它 不 仅 提 供 了 丰富 的 数据 模型 ， 而 且 文 持 多 种 文件 格 
式 处 理 ， 包 括 CSV、HDF5、HTML 等 ， 能 够 提供 高 效 的 大 型 数据 处 
理 。 其 文 持 的 两 种 数据 结构 Series 和 DataFrame 是 数据 处 理 的 
基础 。 下 面 先 来 介绍 这 两 种 数据 结构 。 


Series: 它 是 一 种 类 似 数 组 的 融 索 引 的 一 维 数据 结构 ， 文 持 的 类 型 
与 NumPy 兼 容 。 如 有 果 不 指定 索引 ， 默 认为 0 到 N-1。 通 过 obj.valuesO 和 
obj.indexO 可 以 分 别 获 取 值 和 索引 。 当 给 Series 传 递 一 个 字典 的 时 候 ， 
Series 的 索引 将 根据 字典 中 的 键 排 序 。 如 果 传 入 字典 的 时 候 同 时 重新 指 
定 了 index 人 参数， 当 index 与 字典 中 的 键 不 匹配 的 时 候 ， 会 出 现时 数据 丢 
失 的 情况 ， 标 记 为 NaN。 


在 pandas 中 用 函数 isnul0 和 notnull0 来 检测 数据 是 否 丢失 。 


>>> obj1 = Series([1, 'a', (1,2), 3], index=['a', 'b', 'c', 'd']) 
>>> obj1i#value 
和 index 


一 一 匹配 

a 1 
b a 
Cc (1, 2) 
d 3 


dtype: object 
>>> obj2=Series({"Book":"Python", "Author":"Dan", "ISBN":"011334", "Price":25},inde 
x=['book', 'Author', 'ISBM', 'Price']) 

>>> obj2.isnull() 

book True # 

指定 的 Index 
与 字典 的 键 不 匹配 ， 发 生 数 据 丢失 
Author False 


ISBM True # 
指定 的 jndex 

与 字典 的 键 不 匹配 ， 发 生 数据 丢失 
Price False 

dtype: bool 

六 水 


.DataFrame: 类 似 于 电子 表格 ， 其 数据 为 排 好 序 的 数据 列 的 集合 ， 
一 列 都 可 以 是 不 同 的 数据 类 型 ， 它 类 似 于 一 个 二 维 数据 结构 ， 文 持 
行 和 列 的 索引 。 和 Series 一 样 ， 索 引 会 目 动 分 配 并 且 能 根据 指定 的 列 
行 排序 。 使 用 最 多 的 方式 是 通过 一 个 长 度 相等 的 列表 的 字典 来 构建 。 
构建 一 个 DataFrame 最 常用 的 万 陈 是 用 一 个 相生 长 度 列表 的 于 由 或 
NumPy 数 组 。DataFrame 也 可 以 通过 columns 指 定 序 列 的 顺序 进行 排 
序 o 


本 


>>> data = {'OrderDate': ['1-6-10', '1-23-10', '2-9-10', '2-26-10', '3-15-10'], 
' Region': [ Ty 'Central', 'Central', 'West', 'East'], 
'Rep': ['Jones' ‘Kivell', 'Jardine', 'Gill', 'Sorvino']} 
>>> 
>>> DataFrame(data,columns=['OrderDate', 'Region', 'Rep'] )# 
通过 字典 构建 ， 按 照 cloumns 
指定 的 贰 序 排序 
orderDate Region Rep 
1-6-10 East Jones 
1-23-10 Central Kivell 
- Central Jardine 
2-26-10 West Gill 
3-15-10 East Sorvino 


ONDPO 
[DS) 
OO 
[ms 
© 


Pandas 中 处 理 CSV 文 件 的 函数 主要 为 read_csv0 和 to_csv0O 这 两 个 ， 
其 中 read_csv0) 读 取 CSV 文 件 的 内 容 并 返回 DataFrame，to_csv0 则 是 其 逆 
过 程 。 两 个 函数 都 文 持 多 个 参数 ， 由 于 其 参数 众多 且 过 于 复杂 ， 本 下 
不 对 各 个 参数 一 一 介绍 ， 仅 选取 几 个 第 见 的 情形 结合 具体 例子 介绍 。 
下 面 举例 说 明 ， 其 中 需要 处 理 的 CSV 文 件 格式 如 图 4-2 所 示 。 


OrderDate,Region, Rep, Item, Units,Unit Cost,Total 
1-6-10,East, Jones, Pencil,95, 1.99 , 189.05 
1-23-10,Central,Kivell,Binder,50, 19.99 , 999.50 
2-9-10,Central,Jardine,Pencil,36, 4.99 ,， 179.64 
2—-26-10,Central,G1ill,Pen,27, 19.99 ， 539.73 
3-15-10,West, SQrvinQ, Pencil,56, 2.99 ,， 167.44 
4-1-10,East, Jones, Binder,60, 4.99 , 299.40 
4-18-10,Central,Andrews, Pencil,75, 1.99 , 149.25 


图 4-2 CSV 文件 示例 
1) 指定 读 取 部 分 列 和 文件 的 行 数 。 具 体 的 实现 代码 如 下 : 


>>> df = pd.read csv("SampleData.csv",nrows=5,Uusecols=['OrderDate', 'Item', 'Total 
1 


>>> df 

OrderDate Item Total 
0 1-6-10 Pencil 189.05 
1 1-23-10 Binder 999.50 
2 2-9-10 Pencil 179.64 
3 2-26-10 Pen 539.73 
4 3-15-10 Pencil 167.44 


方法 read_csv() 的 参数 nrows 指 定 读 取 文 件 的 行 数 ，usecols 指 定 所 要 
读 取 的 列 的 列 名 ， 如 有 果 没 有 列 名 ， 可 直接 使 用 索引 0、1、.…、n-1。 上 
壕 两 个 参数 对 大 文件 处 理 非常 有 用 ， 可 以 避免 读 入 整个 文件 而 只 选取 
所 需要 部 分 进行 读 取 。 


2) 设置 CSV 文 件 与 excel 兼 容 。 dialect 参 数 可 以 是 string 也 可 以 是 
csvDialect 的 实例 。 如 有 果 将 图 4-2 所 示 的 文件 格式 改 为 使 用 个 分 隔 符 ， 则 


需要 设置 dialect 相 关 的 参数 。error_bad_lines 设 置 为 False， 当 记录 不 符 
合 要 求 的 时 候 ， 如 记录 所 包含 的 列 数 与 文件 列 设置 不 相等 时 可 以 直接 
名 略 这 些 列 。 下 面 的 代码 用 于 设置 CSV 文 件 与 excel 兼 容 ， 其 中 分 隅 符 
为 “j”， 而 error_bad_lines=False 会 直接 忽略 不 符合 要 求 的 记录 。 


>>> dia = csv.excel() 
>>> dia.delimiter="|" # 
设置 分 隔 符 
>>> pd.read csv("SD.csv") 
OrderDate|Region|Repl|lItem|Units|Unit Cost|Total 
0 1-6-10|East|Jones|Pencil|95|1.99 |189.05 
1 1-23-10|Central|Kivell|Binder|50|19.99 |999.50... 
>>> pd.read csv("SD.csv",dialect = dia,error_bad_ lines=False) 
Skipping line 3: expected 7 fields, saw 10 
所 有 不 符合 格式 要 求 的 列 将 直接 忽略 
OrderDate Region Rep Item Units Unit Cost Total 
0 1-6-10 East Jones Pencil 95 1.99 189.05 
>>> 


3) 对 文件 进行 分 块 处 理 并 返回 一 个 可 迭代 的 对 象 。 分 块 处 理 可 以 
避免 将 所 有 的 文件 载 入 内 存 ， 仅 在 使 用 的 时 候 读 入 所 需 内 容 。 参 数 
chunksize 设 置 分 块 的 文件 行 数 ，10 表 示 每 一 块 包含 10 个 记录 。 将 参数 
iterator 设 置 为 True 时 ， 返 回 值 为 TextFileReader， 它 是 一 个 可 迭代 对 
象 。 来 看 下 面 的 例子 ， 当 chunksize=10、iterator=True 上 有 时， 每 次 输出 为 包 
含 10 个 记录 的 块 。 


>>> reader = pd.read table("SampleData.csv",chunksize=10,iterator=True) 
>>> reader 

<pandas.io.parsers.TextFileReader object at QOx0314BE70> 

>>> iter(reader).next() 


将 TextFileReader 
转换 为 迄 代 器 并 调用 next 
方法 

OrderDate, Region, Rep, Item,Units,Unit Cost,Total # 
每 次 读 入 10 
行 
0 1-6-10,East, Jones, Pencil,95, 1.99 ，189.05 
1 1-23-10,Central,Kivell,Binder,50, 19.99 , 999.50 
2 2-9-10,Central, Jardine,Pencil,36, 4.99 , 179.64 
3 2-26-10, Central, Gill,Pen,27, 19.99 , 539.73 
4 3-15-10,West, Sorvino,Pencil,56, 2.99 ，167.44 
5 4-1-10,East, Jones, Binder,60, 4.99 , 299.40 
6 4-18-10,Central,Andrews,Pencil,75, 1.99 , 149.25 
7 5-5-10,Central, Jardine,Pencil,90, 4.99 , 449.10 
8 5-22-10,West, Thompson, Pencil,32, 1.99 , 63.68 
9 6-8-10,East, Jones,Binder,60, 8.99 , 539.40 


4) 当 文件 格式 相似 的 时 候 ， 文 持 多 个 文件 合并 处 理 。 以 下 例子 用 
于 将 3 个 格式 相同 的 文件 进行 合并 处 理 。 


>>> filelst = os.listdir("test") 

>>> print filelst # 
同时 存在 3 

个 格式 相同 的 文件 
['si.csv', 's2.csv', 'S3.csv'] 

>>> os.chdir("test") 

>>> dfs =[pd.read_ csv(f) for f in filelst] 


>>> total_df = pd.concat(dfs) # 
将 文件 合 
>>> total df 

OrderDate Region Rep Item Units Unit Cost Total 
0 1-6-10 East Jones Pencil 95 1.99 189.05 
1 1-23-10 Central Kivell Binder 50 19.99 999 .5 


了 解 完 pandas 后 ， 读 者 可 以 目 行 实 验 一 下 使 用 pandas 处 理 前 面 生 成 
的 1GB 的 文件 ， 看 看 还 会 不 会 抛 出 MemoryError 异 销 。 


在 处 理 CSV 文 件 上 ， 特 别 是 大 型 CSV 文 件 ，pandas 不 仅 能 够 做 到 与 
csv 模 块 兼容 ， 更 重要 的 是 其 CSV 文 件 以 DataFrame 的 格式 返回 ，pandas 
对 这 种 数据 结构 提供 了 非常 丰富 的 处 理 方法 ， 同 时 pandas 文 持 文 件 的 分 
块 和 合并 人 处理， 非常 灵活 ， 由 于 其 的 层 很 多 算法 采用 Cython 实 现 运 行 
速度 较 快 。 实 际 上 pandas 在 专业 的 数据 处 理 与 分 析 领 域 ， 如 金融 等 行业 
已 经 得 到 广泛 的 应 用 。 


建议 43: 一 般 情况 使 用 ElementTree 解 析 
XML 


xml.dom.minidom 和 xml.sax 大 概 是 Python 中 解析 XML 文件 最 广 为 人 
知 的 两 个 模块 了 ， 原 因 一 是 这 两 个 模块 目 Python 2.0 以 来 束 成 为 Python 
的 标准 库 ;， 二 是 网 上 关于 这 两 个 模块 的 使 用 方面 的 资料 最 多 。 作 为 主 
要 解析 XML 方法 的 两 种 实现 ，DOM 需 要 将 整个 XML 文件 加 载 到 内 存 中 
并 解析 为 一 柠 树 ， 虽 然 使 用 较为 简单 ， 但 占用 内 存 较 多 ， 人 性 能 方面 不 
占 优势 ， 并 且 不 够 Pythonic， 而 SAX 是 基于 事件 驱动 的 ， 虽 不 需要 全 前 
闭 入 XML 文件 ， 但 其 处 理 过 程 却 较为 复杂 。 实 际 上 Python 中 对 XML 的 
处 理 还 有 更 好 的 选择 ，ElementTree 便 是 其 中 一 个 ， 一 般 情 况 下 使 用 
ElementTree 便 已 足够 。 它 从 Python2.5 开 始 成 为 标准 模块 ，cElementTree 
是 ElementTree 的 Cython 实 现 ， 速 度 更 快 ， 消 耗 内 存 更 少 ， 性 能 上 更 占 
优势 ， 在 实际 使 用 过 程 中 应 该 尽量 优先 使 用 cElementTree。 由 于 两 者 使 
用 方式 上 完全 兼容 本 文 将 两 者 看 做 一 个 物件 ， 除 非 说 明 不 再 刻意 区 
分 。ElementTree 在 解析 XML 文件 上 具有 以 下 特性 : 


-使 用 简单 。 它 将 整个 XML 文件 以 树 的 形式 展示 ， 每 一 个 元 素 的 属 
性 以 字典 的 形式 表示 ， 非 党 方便 处 理 。 


-内存 上 消耗 明显 低 于 DOM 解 析 。 由 于 ElementTree 愤 层 进行 了 一 定 
的 优化 ， 并 且 它 的 iterparse 解 析 工 具 支 持 SAX 事 件 驱 动 ， 能 够 以 从 代 的 
形式 返回 XML 部 分 数据 结构 ， 从 而 避免 将 整个 XML 文件 加 载 到 内 存 
中 ， 因 此 性 能 上 更 优化 ， 相 比 于 SAX 使 用 起 来 更 为 答 单 明了 。 


文 持 XPath 查 询 ， 非 常 方便 获取 任意 节点 的 值 。 


这 里 需要 说 明 的 是 ， 一 般 情况 指 的 是 : XML 文件 大 小 适中 ， 对 性 
能 要 求 并 非 非 常 严 格 。 如 果 在 实际 过 程 中 需要 处 理 的 XML 文件 大 小 在 
GB 或 近似 GB 级 别 ， 第 三 方 模块 lxml 会 获得 较 优 的 处 理 结 果 。 天 于 lxml 
模块 的 介绍 请 参考 本 章 后 续 小 或 者 参考 文章 “使 用 由 Python 编写 的 
Ixml 实 现 高 性 能 XML 解析 "， 可 通过 链接 
http://www.ibm.com/developerworks/cn/xml/x-hiperfparse/ 可 以 访问 。 


下 面 结合 具体 的 实例 来 说 明 elementtree 解 析 XML 文 件 常用 的 方法 。 
需要 解析 的 XML 实例 如 下 : 


<systems> 
<system platform="l1inux" name="linuxtest"> 
<purpose>automation test</purpose> 
<system type>virtual</system type> 
<ip_address/> 
<commands_on_boot> 
<command_details> 
<!-- Set root password. --> 
<command>echo root:mytestpwd | sudo /usr/ 
sbin/chpasswd</command> 
<userid>root2</userid> 
<password>PasswOord</password> 
</command_details> 
<command_details> 
<command>mkdir /TEST; chmod 777 
/TEST</command> 
</command_details> 
</commands_on_boot> 
</system> 
<system platform="aix" name="aixtest"> 
<purpose>manual test</purpose> 
<system type>virtual</system type> 
<ip_address/> 
<commands_on_boot> 
<command_details> 
<!-- Set root password. --> 
<command>echo root:mytestpwd | sudo /usr/ 
sbin/chpasswd</command> 
<userid>root2</userid> 
<password>PasswOord</password> 
</command_details> 
<command_details> 
<command>mkdir /TEST; chmod 777 
/TEST</command> 
</command_details> 
</commands_on_boot> 
</system> 
</systems> 


模块 ElementTree 主 要 存在 两 种 类 型 ElementTree 和 Element， 它 们 文 
持 的 方法 以 及 对 应 的 使 用 示例 如 表 4-1 和 表 4-2 所 示 。 


表 4-1 ElementTree 主 要 的 方法 和 使 用 示例 


主要 的 方法 、 属 性 方法 说 明 以 及 示例 
返回 xml 文档 的 根 节点 
>>> import Xml.etree.ElementTree as ET 
>>> tree = ET.ElementTree(file ="test.xml") 
>>> root = tree.getroot() 


getroot() . 
>>> print root 
<Element 'systems' at OQx26cbff0> 
>>> print root.tag 
systems 
同 Element 相关 的 方法 类 似 ， 只 是 从 跟 节点 开始 搜索 ( 见 表 4-2 ) 
>>> for i in root.findall("system/purpose"): 
print i.text 
find(match) 
findall (maich) automation test 


manual test 

findtext(match, default=None) i i 
>>> print root.findtext("system/purpose") 
automation test 
>>> print root.find("system/purpose") 
<Element 'purpose' at 0x26d2170> 
从 xml 根 结 点 开始 ， 根 据 传 入 的 元 素 的 tag 返回 所 有 的 元 素 集 合 的 迭代 器 
>>> for i in tree.iter(tag = "command"): 

print i.text 
ter(lag None) echo root:mytestpwd | sudo /usr/sbin/chpasswd 
mkdir /TEST; chmod 777 /TEST 
echo root:mytestpwd | sudo /usr/sbin/chpasswd 
mkdir /TEST; chmod 777 /TEST 


( 续 ) 
主要 的 方法 、 属 性 方法 说 明 以 及 示例 
根据 传人 的 tag 名 称 或 者 path 以 迭代 絮 的 形式 返回 所 有 的 子 元 素 
>>> for 1 in tree.iterfind("system/purpose"): 


. print 1.text 
iterfind(match) 


automation test 
manual test 


表 4-2 ”Element 主要 的 方法 和 使 用 示例 


主要 的 方法 、 属 性 方法 说 明 以 及 示例 
字符 串 ， 用 来 表示 元 素 所 代表 的 名 称 


tag 
站 >>> print root[1].tag# 输出 system 
表示 元 素 所 对 应 的 具体 值 
text - 0 
>>> print root[1].text# 输出 空 串 
> 用 字典 表示 的 元 素 的 属性 
attrib 


>>> print root[1].attrib # 输出 {'platform': 'aix', name': 'aixtest 

根据 元 素 属 性 字典 的 key 值 获取 对 应 的 值 ， 如 果 找 不 到 对 应 的 属性 ， 则 返回 
get(key, default=None) default 

>>> print root[1].attrib.get("platform")# 输出 aix 

将 元 素 属 性 以 (名 称 , 值 ) 的 形式 返回 


items() . 5 
>>> print root[1].items() #[('platform', 'aix'), (name'，aixtest)] 
ee 返回 元 素 属性 的 key 值 集合 
- >>> print root[1].keys()# 输 出 ['platform', name'] 
根据 传 入 的 tag 名 称 或 者 path 返回 第 一 个 对 应 的 element 对 象 ， 或 者 返回 
find(match) 
None 
findall(match) 根据 传 入 的 tag 名 称 或 者 path 以 列表 的 形式 返回 所 有 符合 条 件 的 元 素 


根据 传人 的 tag 名 称 或 者 path 返回 第 一 个 对 应 的 element 对 象 对 应 的 值 ， 即 
text 属性 ， 如 果 找 不 到 则 返回 default 的 设置 
根据 传人 的 元 素 的 名 称 返回 其 所 有 的 子 节 点 


>>> for i in list(root.findall("system/system type")): 


findtext(match, default=None) 


list(elem) .Print itext 


# 输出 virtual virtural 


前 面 我 们 提 到 elementree 的 iterparse 工 具 能 够 避免 将 整个 XML 文件 
加 载 到 内 存 ， 从 而 解决 当 读 入 文件 过 大 内 存 而 消耗 过 多 的 问题 。 
iterparse 返 回 一 个 可 以 迭代 的 由 元 组 (时 间 , 元 素 ) 组 成 的 流 对 象 ， 支 持 两 
个 参数 source 和 events， 其 中 event 有 4 种 选择 一 一 start、end 、startns 
和 endns (默认 为 end) ， 分 别 与 AX 解析 的 startElement 、endElement、 
startElementNS 和 endElementNS 一 一 对 应 。 


本 下 最 后 来 看 一 下 iterparse 的 使 用 示例 : 统计 userid 在 整个 XML 出 
现 的 次 数 。 


>>> count = 0 

>>> for event,elem in ET.iterparse("test.xm]l"):# 
对 iterparse 

的 返回 值 进行 迭代 

If event =='end ': 


If elem.tag =='Userid ' : 
count+=1 
elem.clear() 


>>> print count 
2 


OOO 


建议 44: 理解 模块 pickle 优 学 


在 实际 应 用 中 ， 序 列 化 的 场景 很 常见 ， 如 : 在 人 磁盘 上 保存 当前 程 
序 的 状态 数据 以 便 重 局 的 时 候 能 够 重 狐 加 载 ; 多 用 户 或 者 分 布 式 系统 
中 数据 结构 的 网 络 传输 时 ， 可 以 将 数据 序列 化 后 发 送 给 一 个 可 信和 网 络 
对 端 ， 接 收 者 进行 反 序列 化 后 便 可 以 重新 恢复 相同 的 对 象 ，session 和 
cache 的 存储 等 。 序 列 化 ， 人 简单 地 说 驶 是 把 内 存 中 的 数据 结构 在 不 丢失 
其 身份 和 类 型 信息 的 情况 下 转 成 对 象 的 文本 或 二 进 制 表示 的 过 程 。 对 
象 序列 化 后 的 形式 经 过 反 序 列 化 过 程 应 该 能 恢复 为 原 有 对 象 。Python 
中 有 很 多 支持 序列 化 的 模块 ， 如 pickle、json、marshal 和 shelve 等 。 最 
广为人知 的 为 pickle， 我 们 来 仔细 分 析 一 下 这 个 模块 。 


pickle 估 计 是 最 通用 的 序列 化 模块 了 ， 它 还 有 个 C 语 言 的 实现 
cPickle， 相 比 pickle 来 说 具有 较 好 的 性 能 ， 其 速度 大 概 是 pickle 的 1000 
倍 ， 因 此 在 大 多 数 应 用 程序 中 应 该 优先 使 用 cPickle ( 注 : cPickle 除 了 
不 能 被 继承 之 外 ， 它 们 两 者 的 使 用 基本 上 区 别 不 大 ， 除 有 特殊 情况 ， 
本 节 将 不 再 做 具体 区 分 ) 。pickle 中 最 主要 的 两 个 函数 对 为 dumpO 和 
load0， 分 别 用 来 进行 对 象 的 序列 化 和 反 序 列 化 。 


-pickle.dump(obj, file[, protocol]): 序列 化 数据 到 一 个 文件 描述 符 
(一 个 打开 的 文件 、 套 接 字 等 ) 。 参 数 obj 表 示 需 要 序列 化 的 对 象 ， 包 
括 布 尔 、 数 字 、 字 符 串 、 字 节 数 组 、None、 列 表 、 元 组 、 字 典 和 集合 
等 基本 数据 类 型 ， 此 外 picike 还 能 够 处 理 循 环 ， 递 归 引 用 对 象 、 类 、 画 
数 以 及 类 的 实例 等 。 参 数 fle 支 持 write0) 方 法 的 文件 句柄 ， 可 以 为 真实 
的 文件 ， 也 可 以 是 StringIO 对 象 等 。protocol 为 序列 化 使 用 的 协议 版 
本 ，0 表 示 ASCII 协 议 ， 所 序列 化 的 对 象 使 用 可 打印 的 ASCII 码 表示 ; 1 


表示 老式 的 二 进 制 协议 ; 2 表示 2.3 版 本 引入 的 新 二 进 制 协议 ， 比 以 前 
的 更 高 效 。 其 中 协议 0 和 1 兼容 老 版 本 的 Python。protoco] 默 认 值 为 0 。 


load(file): 表示 把 文件 中 的 对 象 恢 复 为 原来 的 对 象 ， 这 个 过 程 也 
被 称 为 反 序 列 化 。 


来 看 一 下 load0 和 dump0O 的 示例 。 


>>> import cPickle as pickle 
>>> my_data = {"name" : "Python"”， "type" : "Language", "version" :; "2.7.5"} 
>>> fp = open("picklefile.dat", "wb") # 

要 写 入 的 文件 

>>> pickle.dump(my_data, fp) # 

使 用 dum 

进行 序列 化 

>>> fp.close() 

>>> 

>>> fp = open("picklefile.dat", "rb") 

>>> Out = pickle.1load(fp) # 

反 序列 化 

>>> print(out) 

{'version': '2.7.5', 'type': 'Language', 'name': 'Python'} 
>>> fp.close() 


< 


pickle 之 所 以 能 成 为 通用 的 序列 化 模块 ， 与 其 恨 好 的 特性 是 分 不 开 
的 ， 忆 结 为 以 下 儿 避 : 


1) 接口 简单 ， 容 易 使 用 。 通 过 dump0 和 1load0 便 可 轻易 实现 序列 
化 和 反 序 列 化 。 


2) pickle 的 存储 格式 具有 通用 性 ， 能 够 被 不 同 平台 的 Python 解析 
妖 共 诗 ， 比 如 ，Linux 下 序列 化 的 格式 文件 可 以 在 Windows 平 台 的 
Python 解 析 器 上 进行 反 序 列 化 ， 兼 容 性 较 好 。 


3) 支持 的 数据 类 型 广泛 。 如 数字 、 布 尔 值 、 字 符 串 ， 只 包含 可 序 
列 化 对 象 的 元 组 、 字 典 、 列 表 等 ， 非 舰 套 的 函数 、 类 以 及 通过 类 的 
_ dict 或 者 ”getstate (0 可 以 返回 序列 化 对 象 的 实例 等 。 


4) pickle 模 块 是 可 以 扩展 的 。 对 于 实例 对 象 ，pickle 在 还 原 对 象 的 
时 候 一 般 是 不 调用 _init_0 函 数 的 ， 如 果 要 调用 _init 0 进行 初始 
化 ， 对 于 古典 类 可 以 在 类 定义 中 提供 ”getinitargs_ 0 函数 ， 并 返回 一 
个 元 组 ， 当 进行 unpickle 的 时 候 ，Python 束 会 目 动 调用 _init_()， 并 把 
__getinitargs_ (0 中 返回 的 元 组 作为 参数 传递 给 _init 0， 而 对 于 新 式 
类 ， 可 以 提供 ”getnewargs_ 0 来 提供 对 象 生 成 时 候 的 参数 ， 在 
unpickle 的 时 候 以 Class._new_ (Class, *arg) 的 方式 创建 对 象 。 对 于 不 
可 序列 化 的 对 象 ， 如 sockets、 文 件 句 柄 、 数 据 库 连 接 等 ， 也 可 以 通过 
实现 pickle 协 议 来 解决 这 些 局 限 ， 主 要 是 通过 特殊 方法 _ getstate _O 和 
__setstate _() 来 返回 实例 在 被 pickle 时 的 状态 。 来 看 以 下 示例 |: 


import cPpickle as pickle 
class TextReader: 
def _ init (self, filename): 


self,.filename = filename # 
文件 名 称 

self.file = open(filename) # 
打开 文件 的 句柄 

Self,postion = self.file.tell() # 
文件 的 位 置 


def readline(self): 
line = Self.file,readline() 
self.postion = self.file.tell() 
if not line: 
return None 
if line.endswith('\n'): 
line = line[:-1] 
return "%i: %s" % (self.postion, line) 


def _ getstate (self): # 
记录 文件 被 pickle 
时 候 的 状态 
state = self,_dict _.copy() # 
获取 被 pickle 
时 的 字典 信 ， 


电 /已 \ 
del State[ 'file'] 

return State 

def _ setstate (self, state): # 
设置 反 序列 化 后 的 状态 
self._ dict .update(state) 

file = open(self.filename) 

self,.file = file 
reader = TextReader("zen.txt") 
print(reader.readline()) 
print(reader,readline()) 


s = pickle.dumps(reader) # 
在 dumps 

的 时 候 会 默认 调用 _getstate 

new_reader = pickle.1loads(s) # 
在 loads 

的 时 候 会 默认 调用 __setstate__ 


print(new_reader.readline()) 


5) 能 够 自动 维护 对 象 间 的 引用 ， 如 果 一 个 对 象 上 存在 多 个 引用 ， 
pickle 后 不 会 改变 对 象 间 的 引用 ， 并 且 能 够 目 动 处 理 循 环 和 递归 引用 。 


>>> b = a #b 


>>> b.append('c') 
>>> p = pickle.dumps((a,b)) 
>>> al1,b1 = pickle.1loads(p) 


>>> al 

['a', 'b', 'c'] 

>>> bl 

[a 1 bs ve 

>>> al.append('d') # 


反 序 列 化 对 al 
对 象 的 修改 仍然 会 影响 到 b1 
>>> bi 


['a', “7 Gr "d 


但 pickle 使 用 也 存在 以 下 一 些 限制 : 


.pickle 不 能 保证 操作 的 原子 性 。 pickle 并 不 是 原子 操作 ， 也 就 是 说 
在 一 个 pickle 调 用 中 如 采 发 生 异 常 ， 可 能 部 分 数据 已 经 被 保存 ， 兄 外 如 
果 对 象 处 于 深 递 归 状 态 ， 那 么 可 能 超出 Python 的 最 大 递归 深度 。 递 归 
深度 可 以 通过 sys.setrecursionlimitO 进 行 扩展 。 


pickle 存 在 安全 性 问题 。 Python 的 文档 清晰 地 表明 它 不 提供 安全 
性 保证 ， 因 此 对 于 一 个 从 不 可 信 的 数据 产 接 收 的 数据 不 要 轻易 进行 反 
序列 化 。 由 于 loadsO 可 以 接收 字符 串 作 为 参数 ， 这 和 意味 着 精心 设计 的 
字符 串 给 入 侵 提供 了 一 种 可 能 。 在 Pthon 解 释 器 中 输入 代码 
pickle.loads("cos\nsystem\n(S'dir"\ntR.") 便 可 查看 当前 目录 下 所 有 文件 。 
如 果 将 dir 蕉 换 为 其 他 更 具有 破坏 性 的 命令 将 会 市 来 安全 隐患 。 如 果 要 
进一步 提高 安全 性 ， 用 户 可 以 通过 继承 类 pickle.Unpickler 并 重 写 
find_class() 方 法 来 实现 。 


.pickle 协 议 是 Python 特定 的 ， 不 同 语言 之 间 的 兼容 性 难以 保障 。 
用 Python 创建 的 pickle 文 件 可 能 其 他 语言 不 能 使 用 ， 如 Perl、PHP、Java 


下 


建议 45: 序列 化 的 为 一 个 不 销 有 的 选择 一 一 
JSON 


JSON (JavaScript Object Notation) 是 一 种 轻 量 级 数据 交换 格式 ， 
它 基 于 JavaScript 编 程 语言 的 一 个 子 集 ， 于 1999 年 12 月 成 为 一 个 完全 独 
立 于 语言 的 文本 格式 。 由 于 其 格式 使 用 了 其 他 许多 流行 编程 的 约定 ， 
如 C、C++、C 区 、Java、JS、Python 等 ， 加 之 其 简单 灵活 、 可 读 性 和 互 
探 作 性 较 强 、 易 于 解析 和 使 用 等 特点 ， 逐 渐变 得 流行 起 来 ， 甚 至 有 代 
替 XML 的 趋势 。 关 于 JSON 和 XML 之 间 的 优 劣 ， 一 直 有 很 多 和 争论， 本 书 
并 不 打算 对 这 两 者 之 间 的 是 是 非 非 做 详尽 的 分 析 (笔者 的 观点 是 两 者 
各 有 所 长 ， 在 相当 长 的 时 间 里 还 会 共存 共 采 ) ， 这 里 关注 的 是 JSON 用 
于 序列 化 方面 的 优势 。 在 进行 详细 讨论 之 前 ， 我 们 先 来 看 看 Python 语言 
中 对 JSON 的 文 持 现 状 。 


Python 中 有 一 系列 的 模块 提供 对 JSON 格 式 的 支持 ， 如 simplejson、 
cjson、yajl、ujson， 目 Python2.6 后 又 引入 了 标准 库 JSON。 人 简单 来 说 
cjson 和 ujson 是 用 C 来 实现 的 ， 速 度 较 快 。 据 cjson 的 文档 表述 : 其 速率 
比 纯 Python 实 现 的 json 模 块 大 概要 快 250 倍 。yajl 是 Cpython 版 本 的 JSON 
实现 ， 而 simplejson 和 标准 库 JSON 本 质 来 说 无 多 大 区 别 ， 实 际 上 
Python2.6 中 的 json 模 块 就 是 simplejson 减 去 对 Python2.4、2.5 的 支持 以 充 
分 利用 最 新 的 兼容 未 来 的 功能 。 不 过 相对 于 simplejson， 标 准 库 更 新 相 
对 较 慢 ，Python2.7.5 中 simplejson 对 应 的 版 本 为 2.0.9， 而 最 新 的 
simplejson 的 版 本 为 3.3.0。 在 实际 应 用 过 程 中 将 这 两 者 结合 较 好 的 做 法 
是 采用 如 下 import 方 法 。 


try: import simplejson as json 
except ImportError: import json 


本 下 仍 采用 标准 库 JSON 来 做 一 些 探讨 。Python 的 标准 库 JSON 提 供 
的 最 常用 的 方法 与 pickle 类 似 ，dump/dumps 用 来 序列 化 ，load/loads 用 来 
反 序 列 化 。 需 要 注意 的 json 默 认 不 文 持 非 ASCII-based 的 编码 ， 如 load 方 
法 可 能 在 处 理 中 文字 符 时 不 能 正常 显示 ， 则 需要 通过 encoding 参 数 指定 
对 应 的 字符 编码 。 在 序列 化 方面 ， 相 比 pickle，JSON 具 有 以 下 优势 : 


1) 使 用 简单 ， 支 持 多 种 数据 类 型 。JSON 文 档 的 构成 非常 简单 ， 
仅 存 在 以 下 两 大 数据 结构 。 


名称 / 值 对 的 集合 。 在 各 种 语言 中 ， 它 被 实现 为 一 个 对 象 、 记 录 、 
结构 、 字 典 、 散 列表 、 键 列表 或 关联 数组 。 


. 值 的 有 序列 表 。 在 大 多 数 语言 中 ， 它 被 实现 为 数组 、 向 量 、 列 表 
或 序列 。 在 Python 中 对 应 文 持 的 数据 类 型 包括 字典 、 列 表 、 字 符 串 、 整 
数 、 浮 点 数 、True、False、None 等 。JSON 中 数据 结构 和 Python 中 的 转 
换 并 不 是 完全 一 一 对 应 ， 存 在 一 定 的 差异 ， 读 者 可 以 自行 查阅 文档 。 
Python 中 一 个 JSON 文 档 可 以 分 解 为 如 图 4-3 所 示 形 式 。 


2) 存储 格式 可 读 性 更 为 友好 ， 容 易 修 改 。 相 比 于 pickle 来 说 ，json 
的 格式 更 加 接近 程序 员 的 思维 ， 修 改 和 阅读 上 要 容易 得 多 。dumps0 画 
数 提供 了 一 个 参数 indent 使 生成 的 json 文 件 可 读 性 更 好 ，0 意 味 着 “每 个 
值 单独 一 行 "， 大 于 0 的 数字 意味 着 “每 个 值 单独 一 行 并 旦 使 用 这 个 数字 
的 空格 来 缩 进 称 套 的 数据 结构 "。 但 需要 注意 的 是 ， 这 个 参数 是 以 文件 
大 小 变 大 为 代价 的 。 如 图 4-4 展 示 的 是 这 两 种 格式 之 间 的 对 比 ， 其 中 
json.dumpsO 使 用 了 indent 参 数 输 出。 


3) json 支 持 跨 平 台 跨 语言 操作 ， 能 够 轻易 被 其 他 语言 解析 ， 如 
Python 中 生成 的 json 文 件 可 以 轻易 使 用 JavaScript 解 析 ， 互 控 作 性 更 强 ， 
而 pickle 格 式 的 文件 只 能 在 Python 语 言 中 支持 。 此 外 json 原 生 的 
JavaScript 文 持 ， 客 户 端 浏览 器 不 需要 为 此 使 用 额外 的 解释 器 ， 特 别 适 


用 于 Web 应 用 提供 快速 、 紧 凌 、 方 便 的 序列 化 操作 。 此 外 ， 相 比 于 
pickle，json 的 存储 格式 更 为 紧凑 ， 所 占 空 间 更 小 。 


用 4 形式 表示 的 对 象 


一 个 或 多 个 用 ， 隔 开 的 
键 值 对 
| 
True/False | None | | 列表 /元 组 | | 整数 浮 点 数 | | str/unicode | 


图 4-3 json 文档 分 解 图 


9 用 4 形式 表示 的 对 象 


一 个 或 多 个 用 ， 隔 开 的 
键 值 对 


by : 
整数 / 浮 扎 str/unicode 


图 4-4 ”pickle 和 json 文 件 格 式 对 比 


4) 具有 较 强 的 扩展 性 。json 模 块 还 提供 了 编码 (JSONEncoder) 
和 解码 类 (JSONDecoder) 以 便 用 户 对 其 默认 不 支持 的 序列 化 类 型 进行 
扩展 。 来 看 一 个 例子 : 


>>> d=datetime.datetime.now() 
>>> d 
datetime.datetime(2013, 9, 15, 8, 54, 59, 851000) 
>>> json.dumps(d) 
raise TypeError(repr(o) + " is not JSON serializable") 
TypeError: datetime.datetime(2013, 9, 15, 8, 54, 59, 851000) is not JSON seriali 
zable 


5) json 在 序列 化 datetime 的 时 候 会 抛 出 TypeError 异 常 ， 这 是 因为 
json 模 块 本 喘 不 文 持 datetime 的 序列 化 ， 因 此 需要 对 json 本 喘 的 
JSONEncoder 进 行 扩展 。 有 多 种 方法 可 以 实现 ， 下 面 的 例子 是 其 中 实现 
之 一 。 


import datetime 
from time import mktime 
try: import simplejson as json 
except ImportError: import json 
class DateTimeEncoder(json.JSONEncoder): # 
对 JSONEncoder 
进行 扩 振 
def default(self, obj): 
If isinstance(obj, datetime.datetime): 
return obj.strftime('%Y-%m-%d %H:%M:%S') 
elif isinstance(obj, date): 
return obj.strftime('%Y-%m-%d') 


return json.JSONEncoder .default(self, obj) 
d=datetime.datetime.now() 
print json.dumps(d, cls = DateTimeEncoder) # 


使 用 cls 
上 定编 码 器 的 名 称 


最 后 需要 提醒 的 是 ，Python 中 标准 模块 json 的 性 能 比 pickle 与 
cPickle 稍 逊 。 如 果 对 序列 化 性 能 要 求 非 常 高 的 场景 ， 可 以 选择 cPickle 
模块 。 图 4-5 显 示 的 是 这 三 者 序列 化 时 随 着 数据 规模 增加 所 消耗 时 间 改 
变 的 图 例 。 


pickle、json、cPickle 序 列 化 文件 时 性 能 比较 


Json 


pickle 


cPidkle 


建议 46: 使 用 traceback 获 取 栈 信息 


当 程 序 产 生 异 常 的 时 候 ， 最 需要 面 对 异 常 的 其 实 吓 开发 人 员 ， 他 
们 需要 更 多 的 异 前 提示 的 信息 ， 以 便 调 试 程序 中 江 在 的 错误 和 问题 。 
先 来 看 一 个 简单 的 例子 : 


gList 二 [Cay'b ype"d, ey'f';"g"] 
def f(): 

gList[5] 

return g() 


9g(): 
return h() 


del gList[2] 
return i() 
def i(): 
gList.append('i') 
print gList[7] 
if name == '_ main _' 
try: 
f( 
except IndexError as ex: 
print "Sorry,Exception occured,you accessed an element out of range" 
print ex 


上 上 述 程 序 运行 输出 如 下 : 


Sorry,Exception occured,you accessed an element out of range 
list index out of range 


信息 提示 有 有 异常 产生 ， 对 于 用 户 这 点 还 算是 较为 友好 的 ， 那 么 对 
于 开发 人 员 ， 他 如 何 快速 地 知道 错误 发 生 在 哪里 昵 ? 逐 行 检查 代码 
吗 ? 对 于 简单 的 程序 ， 这 也 不 失 为 一 个 办 法 ， 但 在 较为 复杂 的 应 用 程 
序 中 这 个 方法 束 显 得 有 点 低 效 了 。 面 对 异常 开发 人 员 最 希望 看 到 的 往 
往 是 异常 发 生 时 候 的 现场 信息 ，traceback 模 块 可 以 满足 这 个 需求 ， 它 
会 输出 完整 的 栈 信息 。 将 上 述 代码 异 彰 部 分 修改 如 下 : 


except IndexError as ex : 
print "Sorry,Exception occured,you accessed an element out of range" 
print ex 
traceback.print_exc() 


程序 运行 会 输出 异常 发 生 时 候 完 整 的 栈 信息 ， 包 括 调用 顺序 、 异 
常 发 生 的 语句 、 错 误 类 型 等 。 


Sorry Exception occured,you accessed an element out of rangelist index out of 
range 
Traceback (most recent call last): 
File "trace.py", line 20, in <module> 
f() 
File "trace.py", line 5, in f 
return g() 
File "trace.py", line 8, in gd 
return h() 
File "trace.py", line 12, in h 
return i() 
File "trace.py", line 16, in i 
print gList[7] 
IndexError: list index out of range 


traceback.print_exc() 方 法 打印 出 的 信息 包括 3 部 分 :错误 类 型 
(IndexError) 、 错 误 对 应 的 值 (list index out of War 以 及 具体 的 
trace 人 信息， 包括 文件 名 、 具 体 的 行 号 、 函 数 名 以 及 对 应 的 源 代码 。 
Traceback 模 块 提供 了 一 系列 方法 来 获取 和 显示 异常 发 生 时 候 的 trace 相 
天 信息 ， 下 面 列举 几 个 常用 的 方法 : 


1) traceback.print_exception(type, value, traceback[, limit[, file]]), 
根据 limit 的 设置 打印 栈 信 息 ， 旭 e 为 None 的 情况 下 定位 到 sys.stderr， 否 
则 则 写 入 文件 ， 其 中 type、value、traceback 这 3 个 参数 对 应 的 值 可 以 从 
sys.exc_info() 中 获取 。 


2) raceback.print_exc([limit[, file]])， 为 print_exception() 函 数 的 缩 
写 ， 不 需要 传 入 type、value、traceback 这 3 个 参数 。 


3) traceback.format_exc([limit)， 与 print_excO 类 似 ， 区 别 在 于 返 
回 形 式 为 字符 串 。 


4)traceback.extract_stack([file,[, limit]])， 从 当前 栈 帆 中 提取 trace 信 
局、。 


读者 可 以 参看 Python 文档 获取 更 多 关于 traceback 上 所 提供 的 抽取 、 
格式 化 或 者 打印 程序 运行 时 候 的 栈 跟 踩 信息 的 方法 。 本 质 上 模块 
trackback 获 取 异 常 相关 的 数据 都 是 通过 sys.exc_info() 范 数 得 到 的 。 当 
有 异常 发 生 的 时 候 ， 该 男 数 以 元 组 的 形式 返回 (type, value, traceback)， 
其 中 type 为 异常 的 类 型 ，value 为 异常 本 丑 ，traceback 为 异常 发 生 时 候 
的 调用 和 堆栈 信息 ， 它 是 一 个 traceback 对 象 ， 对 和 象 中 包含 出 错 的 行 
数 、 位 置 等 数据 。 上 面 的 例子 中 也 可 以 通过 如 下 方式 输出 异常 发 生 时 
候 的 详细 信息 : 


tb_type, tb_val, exc_tb = sys.exc_info() 
for filename, linenum, funcname, source in traceback.extract_tb(exc_tb): 
print "%-23s:%s '%s' in %s()" % (filename, linenum, source, funcname) 


实际 上 除了 traceback 模 块 本 身 ，inspect 模 块 也 提供 了 获取 traceback 
对 象 的 接口 ，inspect.trace([context]) 可 以 返回 当前 帧 对 象 以 及 异常 发 生 
时 进行 捕获 的 帧 对 象 之 间 的 所 有 栈 帧 记录 列表 ， 因 此 第 一 个 记录 代表 
当前 调用 对 象 ， 最 后 一 个 代表 异常 发 生 时 候 的 对 象 。 其 中 每 一 个 列表 
元 素 都 是 一 个 由 6 个 元 素 组 成 的 元 组 : (frame 对 象 ， 文 件 名 ， 当 前 行 
号 ， 函 数 名 ， 源 代码 列表 ， 当 前 行 在 源 代码 列表 中 的 位 置 ) 。 本 开 
头 的 例子 在 异常 部 分 使 用 inspect.trace() 来 获取 异常 发 生 时 候 的 堆栈 信 
忌 ， 其 部 分 输出 结果 如 下 : 


[(<frame object at Ox022CB480>, 
'testinspect.py', 
23， 

'<module>', 

['\t f()\n'], 

9)， 


此 外 如 果 想 进一步 追踪 函数 调用 的 情况 ， 还 可 以 通过 inspect 模 块 
的 inspect.stack() 函 数 查 看 隔 数 层 级 调用 的 栈 相信 信息 。 因 此 ， 当 异常 
发 生 的 上 时候， 合理 使 用 上 述 模 块 中 的 方法 可 以 快速 地 定位 程序 中 的 问 
题 所 在 。 


建议 47: 使 用 logging 记 录 日 志 信 息 


仅仅 将 栈 信息 输出 到 控制 台 是 远 远 不 够 的 ， 更 为 常见 的 是 使 用 日 
志保 存 程序 运行 过 程 中 的 相关 信息 ， 如 运行 时 间 、 描 述 信息 以 及 错误 
或 者 异 名 发 生 时 候 的 特定 上 下 文 信息 。Python 中 目 带 的 logging 模 块 提 
供 了 日 志 功 能 ， 它 将 logger 的 level 分 为 5 个 级 别 (如 表 4-3 所 示 ) ， 可 以 
通过 LoggersetLevelQw) 来 设置 其 中 DEBUG 为 最 低级 别 ，CRITICAL 
为 最 高 级 别 ， 默 认 的 级 别 为 WARNING 。 


表 4-3 日 志 级 别 


Level 使 用 情形 
DEBUG 详细 的 信息 ， 在 追 踊 问题 的 时 候 使 用 
INFO 正常 的 信息 
WARNING - 些 不 可 预见 的 问题 发 生 ， 或 者 将 要 发 生 ， 如 磁盘 空间 低 等 ， 但 不 影响 程序 的 运行 
ERROR 由 于 某 些 严 重 的 问题 ， 程 序 中 的 一 些 功能 受到 影响 
CRITICAL 严重 的 错误 ， 或 者 程序 本 身 不 能 够 继续 运行 


logging lib 包 含 以 下 4 个 主要 对 象 : 


1) logger 。logger 是 程序 信息 输出 的 接口 ， 它 分 散在 不 同 的 代码 
中 ， 使 得 程序 可 以 在 运行 的 时 候 记 录 相 应 的 信息 ， i 日 志 
级 别 或 filter 来 决定 哪些 信息 需要 输出 ， 并 将 这 些 信息 分 发 到 其 关联 的 
handler。 和 常用 的 方法 有 Logger.setLevel()、Logger. a 
Logger.removeHandler() 、 Logger.addFilter() ~、 Logger.debug() 、 
Logger.info() ~ Logger.warning() 、 Logger.error()、 etLogger() 等 。 


2) Handler 。Handler 用 来 处 理 信息 的 输出 ， 可 以 将 信息 输出 到 控 
制 台 、 文 件 或 者 网 络 。 可 以 通过 Logger.addHandler() 来 给 logger 对 和 象 添 
加 handler， 常 用 的 handler 有 StreamHandler 和 FileHandler 类 。 
StreamHandler 发 送 钳 误 信息 到 流 ， 而 FileHandler 类 用 于 回 文 件 输出 日 志 


信息 ， 这 两 个 handler 定 义 在 logging 的 核心 模块 中 。 其 他 的 handler 定 义 
在 logging.handles 模 块 中 ， 如 HTTPHandler、SocketHandler 。 


3) Formatter。 决 定 log 信 息 的 格式 ， 格 式 使 用 类 似 于 %(< 
dictionary key >)s 的 形式 来 定义 ， 如 '%(asctime)js - %(levelname)s - % 
(message)s'"， 支 持 的 key 可 以 在 Python 目 带 的 文档 LogRecord attributes 中 
查看 。 


4) Filter。 用 来 决定 哪些 信息 需要 输出 。 可 以 被 handler 和 logger 使 
用 ， 文 持 层次 关系 ， 比 如 ， 如 果 设 置 了 filter 名 称 为 A.B 的 logger， 则 该 
logger 和 其 子 logger 的 信息 会 被 输 出 ， 如 A.B、A.B.C. 


logging.basicConfig([**kwargs]) 提 供 对 日 志 系 统 的 基本 配置 ， 默 认 
使 用 StreamHandler 和 Formatter 并 添加 全 jroot logger， 该 方法 和 目 Python2.4 
开始 可 以 接受 字典 参数 ， 文 持 的 字典 参数 如 表 4-4 所 不 。 


表 4-4 字典 参数 格式 类 型 


格 式 描 述 

filename 指定 FileHandler 的 文件 名 ， 而 不 是 默认 的 StreamHandler 
filemode 打开 文件 的 模式 ， 同 open 函数 中 的 同名 人 参数， 默认 为”a” 
format 输出 格式 字符 串 

datefmt 1 期 格式 

level 设置 根 logger 的 日 志 级 加 _ 

stream 肯定 StreamHandler。 这 个 参数 若 与 flename 冲突 ， 和 忽略 stream 


我 们 通过 修改 上 一 节 的 例子 来 看 如 何 结合 traceback 和 logging， 记 杂 
程序 运行 过 程 中 的 异常 。 


import traceback 
import sys 
import logging 


logging. basicconfig( # 
配置 日 志 的 输出 方式 及 格式 
level=logging .DEBUG, 
filename='1og.txt '， 
filemode='w'， 


二 >》 


format='%(asctime)s %(filename)s[line:%(lineno)d] %(levelname)s %(message)s'， 


) 
def f(): 
gList[5] 
logging.info('[INFO]:calling method g() in f()')# 
记 导 正常 起 
return g() 
def g(): 
logging.info('[INFO]:calling method h() in g()') 
return h() 
def h(): 
logging.info('[INFO]:Delete element in gList in h()') 
del gList[2] 
logging.info('[INFO]:calling method i() in h()') 
return i() 
def i(): 
logging.info('[INFO]:Append element i to gList in i()') 
gList.append('i') 
print gList[7] 


if name == '_ main _': 
logging.debug('Information during calling f():') 
try: 
f() 


except IndexError as ex: 
print "Sorry,Exception occured,you accessed an element out of range" 
#traceback.print_exc() 
ty,tv,tbh = sys.exc_info() 
logging.error("[ERROR]:Sorry,Exception occured,you accessed an 
element out of range" )# 


记录 异常 错误 信息 
logging.critical('object info:%s' %ex) 
logging.critical('Error Type:{0},Error Information:{1}'.format(ty, 
tv)) 


# 
记录 异常 的 类 型 和 对 应 的 值 
logging.critical(''.join(traceback.format_tb(tb)))# 
记录 具体 的 trace 


中 /CA 


sys.exit(1) 


修改 程序 后 在 控制 台 上 对 用 户 仪 显示 错误 提示 信 
局 “SorryException occured,you accessed an element out of range”， 而 开 


发 人 员 如 有 果 需 要 debug 可 以 在 日 志文 件 中 找到 具体 运行 过 程 中 的 信息 。 


# 
为 了 节省 篇 幅 仅 显示 部 分 日 志 
2013 - 66- 26 12:05:18, 923 traceexample.py[line:41] CRITICAL object info:list 
index out of range 
2013-06-26 12:05:18,923 traceexample.py[line:42] CRITICAL Error Type:<type 
'exceptions.IndexError'>,Error Information:]ist index out of range 
2013-06-26 12:05:18,924 traceexample.py[line:43] CRITICAL File 
"traceexample.py", 
line 35, in <module> 
f() 
File "traceexample.py", line 15, in f 
return g() 
File "traceexample.py", line 19, in g 
return h() 
File "traceexample.py", line 25, in h 


return i() 
File "traceexample.py", line 30, in i 
print gList[7] 


上 面 的 代码 中 控制 运行 输出 到 console 上 用 的 是 print()， 但 这 种 方法 
比较 原始 ，logging 模 块 提供 了 能 够 同时 控制 输出 到 console 和 文件 的 方 
法 。 下 面 的 例子 中 通过 添加 StreamHandler 并 设置 日 志 级 别 为 
logging.ERROR， 可 以 在 控制 台 上 输出 错误 信息 。 


console = logging.StreamHandler() 

console.setLevel(logging.ERROR) 

formatter = logging.Formatter('%(name)-12s: %(levelname)-8s %(message)s') 
console.setFormatter(formatter) 

logging.getLogger('').addHandler(console) 


为 了 使 Logging 使 用 更 为 丛 单 可 控 ，logging 文 持 loggin.config 进 行 配 
置 ， 文 持 dictConfig 和 fileConfig 两 种 形式 ， 其 中 fileConfig 是 基于 
configparser0O) 函 数 进 行 解析 ， 必 须 包含 的 内 容 为 [loggers]、[handlers] 和 
[formatters]。 具体 例子 示意 如 下 : 


[loggers] 

keys=root 

[logger_root] 

level=DEBUG 

handlers=hand61 

[handlers] 

keys=hand01 

[handler_hand01] 
class=StreamHandler 
level=INFO 

formatter=formO1 
args=(sys.stderr,) 
[formatters] 

keys=formO1 
[formatter_formol] 
format=%(asctime)s %(filename)s[line:%(lineno)d] %(levelname)s %(message)s 
datefmt=%a, %d %b %Y %H:%M:%S 


最 后 关于 logging 的 使 用 ， 提 以 下 几 点 建议 : 


1) 尽量 为 logging 取 一 个 名 字 而 不 是 采用 默认 ， 这 样 当 在 不 同 的 模 
块 中 使 用 的 时 候 ， 其 他 模块 只 需要 使 用 以 下 代码 就 可 以 方便 地 使 用 同 


一 个 logger， 因 为 它 本 质 上 符合 单 例 模式 。 


import logging 
logging.basicConfig(level=logging .DEBUG) 
logger = logging.getLogger( __name _ ) 


2) 为 了 方便 地 找 出 问题 所 在 ，logging 的 名 字 建 议 以 模块 或 者 class 
来 命名 。Logging 名 称 遵 循 按 “.” 划 分 的 继承 规则 ， 根 是 root logger， 
logger a.b 的 父 logger 对 象 为 a。 


3) Logging 只 是 线程 安全 的 ， 不 文 持 多 进程 写 入 同一 个 日 子 文 
件 ， 因 此 对 于 多 个 进程 ， 需 要 配置 不 同 的 日 志文 件 。 


建议 48: 使 用 threading 模 块 编写 多 线程 程 
友 


GI 的 存在 使 得 Python 多 线程 编程 暂时 无 法 充分 利用 多 处 理 避 的 优 

势 ， 这 种 限制 也 许 使 很 多 人 感到 诅 形 ， 但 事实 上 这 并 不 意味 着 我 们 需 
要 放弃 多 线程 。 的 确 ， 对 于 只 含 纯 Python 的 代码 也 许 使 用 多 线程 并 不 
能 提高 运行 速率 ， 但 在 以 下 几 种 情况 ， 如 等 竺 外 部 资源 返回 ， 或 者 为 
了 提高 用 户 体验 而 建立 反应 灵活 的 用 户 界 面 ， 或 者 多 用 户 应 用 程序 
中 ， 多 线程 仍然 是 一 个 比较 好 的 解决 方案 。Python 为 多 线程 编程 提供 
了 两 个 非常 简单 明了 的 模块 : thread 和 threading。 那 么 ， 这 两 个 模块 在 
多 线程 处 理 上 有 什么 区 别 呢 ? 简单 一 点 说 : thread 模 块 提供 了 多 线程 底 
层 文 持 模块 ， 以 低级 原始 的 方式 来 处 理 和 控制 线程 ， 使 用 起 来 较为 复 
杂 ; 而 threading 模 块 基于 thread 进 行 包 装 ， 将 线程 的 操作 对 象 化 ， 在 语 
言 层面 提供 了 丰富 的 特性 。Python 多 线程 支持 用 两 种 方式 来 创建 线 
程 : 一 种 是 通过 继承 Thread 类 ， 重 写 它 的 run() 方 法 (注意 ， 不 是 start() 
方法 ) ; 另 一 种 是 创建 一 个 threading.Thread 对 象 ， 在 它 的 初始 化 函数 

(_init _()) 中 将 可 调用 对 象 作为 参数 传 入 。 实 际 应 用 中 ， 推 荐 优先 
使 用 threading 模 块 而 不 是 thread 模 块 ， (除非 有 特殊 需要 ) 。 下 面 来 具 
体 分 析 一 下 这 么 做 的 原因 。 


1) threading 模 块 对 同步 原 语 的 支持 更 为 完善 和 丰富 。 就 线程 的 同 
步 和 互 不 米 说 ，thread 模 块 只 提供 了 一 种 锁 类 型 thread.LockType， 而 
threading 模 块 中 不 仅 有 Lock 指 令 锁 、RLock 可 重 入 指令 锁 ， 还 支持 条 
件 变 量 Condition、 信 号 量 Semaphore、BoundedSemaphore 以 及 Event 事 


件 等 。 


2) threading 模 块 在 主线 程 和 子 线程 交互 上 更 为 友好 ，threading 中 
的 join(0) 方 法 能 够 阻塞 当前 上 下 文 环境 的 线程 ， 直 到 调用 此 方法 的 线程 
终止 或 到 达 指 定 的 timeout 〈 可 选 参数 ) 。 利 用 该 方法 可 以 方便 地 控制 
主线 程 和 子 线程 以 及 子 线程 之 间 的 执行 。 来 看 一 个 人 简单 示例 : 


import threading, time,sys 
class test(threading.Thread): 
def _ init (self,name,delay): 
threading.Thread. init _(self) 
self.name = name 
Self,delay = delay 
def run(self): 
print "%s delay for %s" %(self.name, self.delay) 
time.sleep(self.delay) 
c=0 
while True: 
print "This is thread %s on line %s" %(self.name,c) 


c=c+1 

if c == 3: 
print "End of thread %s" % self.name 
break 


t1 = test('Thread 1', 2) 
t2 = test('Thread 2', 2) 
t1,Start() 

print "Wait t1 to end" 
t1.join() 

t2.start() 

print "End of main' 


上 面 的 例子 中 ， 主 线程 main 在 tL 上 使 用 join0 的 方法 ， 主 线程 会 等 
竺 HL 结束 后 才 继 续 运 行 后 面 的 语句 ， 由 于 线程 t2 的 局 动 在 join 语句 之 
后 ， 包 一 直 等 到 t1 姐 出 后 才 会 开始 运行 。 输 出 结果 如 图 4-6 所 示 。 


hread 1 delav for 2Nait ti to end | 


his is thread Thread 1 on line 
his is thread Thread 1 on line 
his is thread Thread 1 on line 


nd of thread Thread 1 


hread 2 delay for 2End of main 


his is thread Thread 2 line 

his is thread Thread 2 line 

his is thread Thread 2 line 
End of thread Thread 2 


图 4-6 ”多 线程 示例 输出 结果 


3) thread 模 块 不 支持 守护 线程 。thread 模 块 中 主线 程 退 出 的 时 候 ， 
所 有 的 子 线程 不 论 是 否 还 在 工作 ， 都 会 被 强制 结束 ， 并 且 没 有 任何 警 
告 也 没有 任何 退出 前 的 清理 工作 。 来 看 一 个 例子 : 


from thread import start_new_thread 
import time 
def myfunc(a,delay): 
print "I will calculate square of %s after delay for %s" %(a,delay) 
time.sleep(delay) 
print "calculate begins..." 
result = a*a 
print result 
return result 
start_new_ thread(myfunc, (2,5))# 
同时 启动 两 个 线程 


start_new_thread(myfunc, (6,8)) 
time.sleep(1) 


运行 程序 ， 输 出 结果 如 下 ， 你 会 发 现 子 线程 的 结 末 还 未 返回 束 已 
经 结束 了 。 


I will calculate Square of 2 after delay for 5I will calculate Square of 6 
after delya for 2 


这 是 一 种 非常 野 亦 的 主线 程 和 子 线程 的 交互 方式 。 如 果 把 主线 程 
和 子 线程 组 成 的 线程 组 比 作 一 个 团队 的 话 ， 那 么 主线 程 应 该 是 这 个 
队 的 管理 者 ， 它 了 解 每 个 线程 所 做 的 事情 、 所 需 的 数据 输入 以 及 子 线 
程 结束 时 的 输出 ， 并 把 各 个 线程 的 输出 组 合 形 成 有 意义 的 结果 。 如 果 
一 个 团队 中 管理 者 采取 这 种 强硬 的 管理 方式 ， 相 信 很 多 下 属 都 会 闸 不 
堪 言 ， 因 为 不 仅 没 有 被 苯 重 的 感觉 ， 而 且 还 有 可 能 因为 这 种 强势 带 来 
决策 上 的 失误 。 实 际 上 很 多 情况 下 我 们 可 能 希望 主线 程 能 够 等 每 所 有 
子 线程 都 完成 时 才 退 出 ， 这 时 应 该 使 用 threading 模 块 ， 它 支持 守护 线 
程 ， 可 以 通过 setDaemon() 函 数 来 设 定 线程 的 daemon 属 性 。 当 daemon 属 
性 设置 为 True 的 时 候 表 明 主 线程 的 退出 可 以 不 用 等 待 子 线程 完成 。 默 
认 情 况 下 ，daemon 标 志 为 False， 所 有 的 非 守护 线程 结束 后 主线 程 才 会 
结束 。 来 看 具体 的 例子 ， 当 daemon 属 性 设置 为 False， 默 认 主 线程 会 等 
待 所 有 子 线程 结束 才 会 退出 。 将 t2 的 daemon 属 性 改 为 True 之 后 即使 t2 
运行 未 结束 主线 程 也 会 直接 退出 。 


import threading 
import time 
def myfunc(a, delay): 
print "I will calculate Square of %s after delay for %s" %(a,delay) 
time.sleep(delay) 
print "calculate begins,..." 
result = a*a 
print result 
return result 
t1i=threading.Thread(target=myfunc,args=(2,5)) 
t2=threading.Thread(target=myfunc,args=(6,8)) 
print t1.isDaemon() 
print t2.isDaemon() 
t2.setDaemon(True) # 
设置 守护 线程 


t1i.start() 
t2.start() 


4) Python3 中 已 经 不 存在 thread 模 块 。thread 模 块 在 Python3 中 被 命 
名 为 _thread， 这 种 更 改 主要 是 为 了 更 进一步 明确 表示 与 thread 模 块 相关 
的 更 多 的 是 具体 的 实现 细 方 ， 它 更 多 展示 的 是 操作 系统 层面 的 原始 操 
作 和 人 处理 。 在 一 般 的 代码 中 不 应 该 选择 thread 模 块 。 


建议 49: 使 用 Queue 使 多 线程 编程 更 安全 


曾经 有 这 么 一 个 说 法 ， 程 序 中 存在 3 种 类 型 的 bug: 你 的 bug、 我 的 
bug 和 多 线程 。 这 虽然 是 句 调 候 ， 但 从 某 种 程度 上 道 出 了 一 个 事实 : 多 
线程 编程 不 是 件 容 易 的 事情 。 线 程 间 的 同步 和 互 不 ， 线 程 间 数 据 的 共 
享 等 这 些 都 是 涉及 线程 安全 要 考虑 的 问题 。 纵 然 Python 中 提供 了 众多 
的 同步 和 互 斥 机 制 ， 如 mutex、condition 、event 等 ， 但 同步 和 互 斥 本 身 
束 不 是 一 个 容易 的 话题 ， 稍 有 不 慎 就 会 陷入 死 锁 状 态 或 者 威胁 线程 安 
全 。 我 们 来 看 一 个 经 典 的 多 线程 同步 问题 ， 生 产 者 消费 者 模型 。 如 果 
用 Python 来 实现 ， 你 会 怎么 写 ? 大 概 思路 是 这 样 的 : 分 别 创建 消费 者 
和 生产 者 线程 ， 生 产 者 往 队 列 里 面 放 产品 ， 消 费 者 从 队列 里 面 取出 产 
品 ， 创 建 一 个 线程 锁 以 保证 线程 间 操 作 的 互 斥 性 。 当 队列 满 的 时 候 消 
费 者 进入 等 待 状态 ， 当 队列 至 的 时 候 生产 者 进入 等 待 状态 。 我 们 来 看 
一 个 具体 的 Python 实现 : 


Import Queue 
import threading 
import random 
writelock = threading.Lock() # 
创建 锁 对 象 用 于 控制 输出 
class Producer(threading,Thread ) : 
def _ init (self, q,con,name): 
super(Producer, self). init () 
Self.q = q 
self.name = _ name 
self.con = con 
print "Producer "+self.name+" Started" 
def run(self): 


while 1: 

global writelock 

self.con.acquire() # 
获取 锁 对 象 

If self.q.full(): # 
队列 满 

with writelock : # 

输出 信息 


print 'Queue is full,producer wait!' 
self.con.wait() # 


else: 
value = random.randint(0,10) 
with writelock: 


print self.name +" put value 
"+Self .name+":"+ Str(value)+ 
"into queue" 


self.q.put((self.namet+":"+str(value))) # 
放 入 队列 中 
self.con.notify() # 
通知 消费 者 
self.con.releasel() # 
释放 锁 对 象 
class Consumer (threading.Thread): # 
让 南 


def _ init (self, q,con,name): 

super(Consumer, self)._ init _() 

Self.q = q 

self.con = con 

self.name = name 

print "Consumer "+self.name+" started\n " 
def run(self): 


while 1: 
global writelock 
self.,con.acquire() 
If self.q.empty(): # 
队列 为 空 
with writelock : 
print 'queue is empty, consumer 
Waitl 
self.con.wait() # 
等 待 资源 
else: 
Value = self.q.get() # 
获取 一 个 元 素 
with writelock : 
print self.name +"get Value'"+ 
value + " from queue" 
self.con.notify() # 
发 送 消息 通知 生产 者 
self .con.release() # 
释放 锁 对 象 
if name == "main ": 
d = Queue,Queue(10) 
con = threading.Condition() # 


条 件 变量 锁 
p = Producer(q,con,"P1") 
p.start() 
pi = Producer(q,con,"P2") 
pi.start() 
c1 = Consumer(q,con,"c1") 
ci.start() 


上 面 的 程序 实现 有 什么 问题 吗 ? 回答 这 个 问题 之 前 ， 我 们 先 来 了 
解 一 下 Queue 模 块 的 基本 知识 。Python 中 的 Queue 模 块 提供 了 3 种 队 
列 : 


Queue.Queue(maxsize) : 先进 先 出 ，maxsize 为 队列 大 小 ， 其 值 为 
非 正 数 的 时 候 为 无 限 循环 队列 。 


.Queue.LifoQueue(maxsize) : 后 进 先 出 ， 相 当 于 栈 。 
.Queue.PriorityQueue(maxsize) : 优先 级 队列 。 
-这 3 种 队列 文 持 以 下 方法 : 


-Queue.gqsize() : 返回 近似 的 队列 大 小 。 注 意 ， 这 里 之 所 以 加 “ 近 
似 ” 二 字 ， 是 因为 当 该 值 >0 的 时 候 并 不 保证 并 发 执行 的 时 候 get() 方 法 不 
被 阻 蹇 ， 同 样 ， 对 于 put0 方 法 有 效 。 


:Queue.empty0 : 列队 为 至 的 时 候 返 回 True， 否 则 返回 False 。 


:Queue.full0 : 当 设 定 了 队列 大 小 的 情况 下 ， 如 果 队 列 满 则 返回 
True， 否 则 返回 False。 


Queue.put(item[, block[, timeout]]) : 往 队 列 中 添加 元 素 item， 
block 设 置 为 False 的 时 候 ， 如 果 队 列 满 则 抛 出 Full 异 常 。 如 果 block 设 置 
为 True，timeout 为 None 的 时 候 则 会 一 直 等 待 直到 有 空位 置 ， 否 则 会 根 
据 timeout 的 设 定 超时 后 抛 出 Full 异 常 。 


Queue.put_nowait(item) : 等 价 于 put(item, False).block 设 置 为 False 
的 时 候 ， 如 果 队 列 空 则 抛 出 Empty 异常 。 如 果 block 设 置 为 True、 
timeout 为 None 的 时 候 则 会 一 直 等 待 直到 有 元 素 可 用 ， 否 则 会 根据 
timeout 的 设 定 超时 后 抛 出 Empty 腊 常 。 


“Queue.get([block[, timeout]]) : 从 队列 中 删除 元 素 并 返回 该 元 素 的 
值 。 


.Queue.get_nowait0 : 等 价 于 get(False) 。 


:Queue.task_done() : 发 送信 号 表明 入 列 任务 已 经 完成 ， 经 常 在 消 
费 者 线程 中 用 到 。 


.Queuejoin0 : 阻塞 直至 队列 中 所 有 的 元 素 处 理 完毕 。 


Queue 模 块 实现 了 多 个 生产 者 多 个 消费 者 的 队列 ， 当 多 线程 之 间 
需要 信息 安全 的 交换 的 时 候 特 别 有 用 ， 因 此 这 个 模块 实现 了 所 需要 的 
锁 原 语 ， 为 Python 多 线程 编程 提供 了 有 力 的 文 持 ， 它 是 线程 安全 的 。 
需要 注意 的 是 Queue 模 块 中 的 列队 和 collections.deque 所 表示 的 队列 并 
不 一 样 ， 前 者 主要 用 于 不 同 线程 之 间 的 通信 ， 它 内 部 实现 了 线程 的 锁 
机 制 ， 而 后 者 主要 是 数据 结构 上 的 概念 ， 因 此 支持 in 方 法 。 


再 回 过 头 来 看 看 前 面 的 例子 ， 程 序 的 实现 有 什么 问题 呢 ? 答案 很 
明显 ， 作 用 于 queue 操 作 的 条 件 变量 完全 是 不 需要 的 ， 因 为 queue 本 号 
能 够 剑 证 线程 安全 ， 因 此 不 需要 额外 的 同步 机 制 。 那 么 ， 该 如 何 修改 
呢 ? 请 读者 目 行 思考 。 下 面 的 多 线程 下 载 的 例子 也 许 有 助 于 你 完成 上 
面 程序 的 修改 。 


import os 
import Queue 
import threading 
import urllib2 
class DownloadThread(threading.Thread): 
def _ init (self, queue): 
threading.Thread. init (self) 
self .queue = queue 
def run(self): 
while True: 
url = self.queue.get() # 
从 队列 中 取出 一 个 url 
元 素 


print self.name+"begin download"+url+"..." 
self,.download_ file(url) # 


进行 文件 下 载 

self.queue.task_done() # 
下 载 完毕 发 送信 号 

print self.name+" download completed!!!" 
def download file(self, url): # 


下 载 文 件 

urlhandler = urllib2.urlopen(ur1l) 

fname = os.path.basename(url1)+".html" # 
文件 名 称 

with open(fname, "wb") as f: # 
打开 文件 


while True: 
chunk = urlhandler.read(1024) 
if not chunk: break 
f.write(chunk) 
if name == "main _": 
urls = ["http://wiki.python.org/moin/WebProgramming", 


"https://www.createspace.com/3611970", 
"http://wiki.python.org/moin/Documentation" 


dueue = Queue.Queue( ) 
# Create a thread pool and give them a queue 
for i in range(5): 
t = DownloadThread(queue) # 
启动 5 


个 线程 同时 进行 下 载 

t.setDaemon(True) 
t.start() 

# give the queue some data 

for Url in urls: 
queue.put(url) 

# wait for the queue to finish 

queue.join() 


第 5 章 ”设计 模式 


设计 模式 由 来 已 和信， 并 广泛 存在 于 各 行 各 业 中 ， 不 过 软件 开发 行 
业 的 设计 模式 广为人知 ， 这 还 是 GoF 的 《设计 模式 一 一 可 复 用 面向 对 
象 软件 的 基础 》 一 书 之 功 ， 而 后 来 的 《Head First 设 计 模 式 》 则 通过 幽 
称 有 趣 的 文风 使 其 广泛 流行 于 程序 员 之 间 。 这 两 本 书 堪 称 经 典 ， 但 是 
它们 分 别 使 用 C++ 和 Java 编 程 语言 作为 载体 ， 如 果 照 搬 到 Python 程序 
中 ， 代 码 里 散发 出 的 浓 浓 的 静态 语言 风格 让 人 人 无所适从。 笔者 坚信 和 在 
使 用 Python 语言 进行 编程 时 得 当地 应 用 设计 模式 是 有 益 的 ， 而 且 
Python 的 动态 语言 特性 并 不 能 完全 替代 设计 模式 。 所 以 本 草 的 内 容 主 
要 聚焦 于 如 何 编 写 Pythonic 的 设计 模式 代码 ， 让 设计 模式 这 一 噩 层 思 
想 更 好 地 落实 到 我 们 的 编程 实践 中 去 。 


建议 50: 利用 模块 实现 单 例 模 式 


在 GOF 的 23 种 设计 模式 中 ， 单 例 十 最 第 使 用 的 模式 ， 通 过 单 例 模 
式 可 以 保证 系统 中 一 个 类 只 有 一 个 实例 而 且 该 实例 易于 被 外 界 访问 ， 
从 而 方便 对 实例 个 数 的 控制 并 节约 系统 资源 。 每 当 大 家 想 要 实现 一 个 
名 为 XxxManger 的 类 时 ， 往 往 意味 着 这 古 一 个 单 例 。 在 游戏 编程 中 尤 
古 如 此 ， 比 如 一 个 名 为 World 的 单 例 管理 着 游戏 中 的 所 有 资源 ， 包 括 一 
个 名 为 Sun 的 单 例 ， 它 给 这 个 世界 市 来 了 光亮 。 


单 例如 此 常见， 所 以 有 不 少 现代 编程 语言 将 其 加 到 了 语言 特性 
中 ， 如 scala 和 falcon 语 言 都 把 object 定 义 成 天 键 词 ， 并 用 其 声明 单 例 。 
如 在 scala 中 ， 一 个 单 例如 下 : 


object Singleton { 
def show = println("I am a singleton") 


object 定 义 了 一 个 名 为 Singleton 的 单 例 ， 它 满足 单 例 的 3 个 需求 : 
一 是 只 能 有 一 个 实例 ， 二 是 它 必 须 目 行 创建 这 个 实例 ;三 是 它 必 须 目 
行 回 整个 系统 提供 这 个 实例 。 对 于 第 三 点 ， 在 任何 地 方 都 可 以 通过 调 
用 Singleton.show() 来 验证 。 在 scala 中 ， 单 例 没 有 显 式 的 初始 化 操作 ， 
但 并 不 是 所 有 在 语法 层面 支持 单 例 模式 的 编程 语言 都 如 此 ， 比 如 falcon 
束 不 一 样 。 


object object_ name [ from classi1, class2 ... classN] 
property_1 = expression 
property_2 = expression 


property_N = expression 

[init block] 

function method_1( [parameter_list] ) 
[method_body] 

end 


function method_N( [parameter_ list] ) 
[method_body] 
end 
end 


上 面 是 falcon 语 言 的 单 例 语法 ，[init block] 能 够 让 程序 员 手 动 控 制 
单 例 的 初始 化 代码 。 但 是 与 scala 和 falcon 相 比 ， 动 态 语言 Python 就 没有 
那么 方便 了 ， 主 要 原因 是 Python 缺乏 声明 私有 构造 国 数 的 语法 元 素 ， 
实例 又 带 有 类 型 信息 。 比 如 以 下 方法 是 不 可 行 的 : 


class _Singleton(object): 
pass 
Singleton = _Singleton() 
del _Singleton # 
试图 删除 class 
义 


another = Singleton._ class_ () # 
没 用 ， 绕 过 ! 

print(type(another)) 

输出 


<class ' main ._Singleton'> 


可 见 昌 然 把 Singleton 的 类 定义 删除 了 ， 但 仍然 有 办 法 通过 已 有 实 
例 的 _class_ 属性 生成 一 个 新 的 实例 。 于 是 许多 Pythonista 把 目光 聚集 
到 真正 创建 实例 的 方法 _new_ 上 ， 并 做 起 了 文章 。 


Class Singleton(object ) : 
_instance = None 
def _new_ (cls，*args，**kwargs) : 
if not cls._instance: 
cls._instance = super(Singleton, cls). new ( 
cls, *args, **kwargs) 
return cls._instance 
if name == '_ main 
si=Singleton() 
s2=Singleton() 
assert id(s1)==id(s2) 


这 个 方法 很 好 地 解决 了 前 面 的 问题 ， 现 在 基本 上 可 以 保证 “只 能 有 
一 个 实例 ”的 要 求 了 ， 但 是 在 并 发 情况 下 可 能 会 发 生意 。 为 了 解决 这 个 


问题 ， 引 入 一 个 市 锁 的 版 本 。 


class Singleton(object): 
objs = {} 
objs_locker = threading., Lock() 
def _ new _ els. *args, **kv): 
if cls in cls.objs: 
return cls.objs[cls] 
cls.objs_locker.acquire() 
try: 
if cls in cls.objs: ## double check locking 
return cls.objs[cls] 
cls.objs[cls] = object. new_ (cls) 
finally: 
cls.objs_locker.release() 


利用 经 典 的 双 检 查 锁 机 制 ， 确 你 了 在 并 发 环境 下 Singleton 的 正确 
实现 。 但 这 个 方案 并 不 完美 ， 至 少 还 有 以 下 两 个 问题 ; 


.如 果 Singleton 的 子 类 重 载 了 _new_ 0 方法 ， 会 履 盖 或 者 干扰 
Singleton 类 中 new_ 0 的 执行 ， 虽 然 这 种 情况 出 现 的 概率 极 小 ， 但 不 
可 忽视 。 


-如 有 果子 类 有 __init 一 0 万 法 ， 那么 每 次 实例 化 该 Singleton 的 时 候 ， 
_ init _() 都 会 被 调用 到 ， 这 显然 是 不 应 该 的 ，_init_0O 只 应 该 在 创建 
实例 的 时 候 被 调用 一 次 。 


这 两 个 问题 当然 可 以 解决 ， 比 如 通过 文档 告知 其 他 程序 员 ， 子 类 
化 Singleton 的 时 候 ， 请 务必 记得 调用 父 类 的 _new_0 方 法; 而 第 二 个 
问题 也 可 以 通过 偷偷 地 替换 掉 _init 只 调用 一 次 。 但 
是 ， 为 了 实现 一 个 单 例 ， 做 大 量 的 、 水 面 之 下 的 工作 让 人 感觉 相当 不 
Pythonic。 这 也 引起 了 Python 社区 的 反思 ， 有 人 开始 重 狐 审视 Python 的 
语法 元 素 ， 发 现 模 块 采用 的 其 实 是 天 然 的 单 例 的 实现 方式 。 


.所 有 的 变量 都 会 绑 定 到 模块 。 


.模块 只 初始 化 一 次 。 


-import 机 制 是 线程 安全 的 (保证 了 在 并 发 状态 下 模块 也 只 有 一 个 
实例 ) 。 


当 我 们 想 要 实现 一 个 游戏 世界 时 ， 只 需 人 简单 地 创建 World.py 束 可 
了 了 = 


# World.py 
import Sun 
def run(): 
while True: 
Sun.rise() 
Sun.set() 


然后 在 入 口 文 件 main.py 里 导入 ， 并 调用 run0) 函 数 ， 看 ， 是 不 是 
觉 这 种 方式 最 为 Pythonic 呢 ? 


Eu 
LN 


这 


# main.py 
import World 
World.run() 


Alex Martelli 认 为 单 例 模 式 要 求 “实例 的 唯一 性 ”本 身 是 有 问题 
的 ， 实 际 更 值得 关注 的 是 实例 的 状态 ， 只 要 所 有 的 实例 共享 状态 (可 
以 狭义 地 理解 为 属性 ) 、 行 为 (可 以 狭义 地 理解 为 方法 ) 一 至 就 可 以 
了 。 在 这 一 思想 的 进一步 指导 下 ， 他 提出 了 Borg 模 式 (在 C# 中 又 称 
为 Monostate 模 式 ) 。 


class Borg: 
__Shared_state = {} 
def _ init (self): 
self. dict = self. shared state 
# and whatever else you want in your class -- that's alll! 


通过 Borg 模 式 ， 可 以 创建 任意 数量 的 实例 ， 但 因为 它们 共享 状 
态 ， 从 而 保证 了 行为 一 致 。 虽 然 Alex 的 这 个 Borg 模 式 仅 适用 于 古典 类 
(classic clasess) ，Python 2.2 版 本 以 后 的 新 式 类 (new-style classes) 
需要 使 用 ”getattr 和 setattr 方法 来 实现 (代码 略 ) ， 但 其 可 开 阅 
眼界 。 


建议 51: 用 mixin 模 式 让 程序 更 加 灵活 


在 理解 mixin 之 前 ， 有 必要 和 允 重 刘 一 下 模板 方法 模式 。 所 谓 的 模板 
方法 模式 束 是 在 一 个 方法 中 定义 一 个 算法 的 骨 肌 ， 并 将 一 些 实现 步骤 
延迟 到 子 类 中 。 模 板 方 法 可 以 使 子 类 在 不 改变 算法 结构 的 情况 下 ， 重 
新 定义 算法 中 的 某 些 步 又 。 在 这 里 ， 算 法 也 可 以 理解 为 行为 。 


模板 方法 模式 在 C++ 或 其 他 语言 中 并 无 不 妥 ， 但 是 在 Python 语言 
中 ， 则 顾 有 点 画蛇添足 的 味道 。 比 如 模板 方法 ， 需 要 先 定 义 一 个 基 
类 ， 而 实现 行为 的 某 些 步 又 则 必须 在 其 子 类 中 ， 在 Python 中 并 无 必 
要 。 


class People(object ) : 
def make_tea(Self): 
teapot = Self.get_teapot() 
teapot .put_in_tea( ) 
teapot .put_in_water() 
return teapot 


在 这 个 例子 中 ，get_teapot() 方 法 并 不 需要 预先 定义 。 假 设 在 上 班 
时 ， 使 用 的 是 简易 茶壶 ， 而 在 家 里 ， 使 用 的 是 功夫 茶壶 ， 那 么 可 以 这 
样 编写 代码 ， 


class OfficePeople(People): 
def get_teapot(self): 
return SimpleTeapot() 
class HomePeople(People): 
def get_teapot(self): 
return KungfuTeapot() 


这 段 代 码 工作 得 很 好 ， 虽 然 看 起 来 像 模板 方法 ， 但 是 基 类 并 不 需 
要 预先 声明 抽象 方法 ， 甚 至 还 带 来 调试 代码 的 便利 。 假 定 存在 一 个 
People 的 子 类 StreetPeople， 用 以 描述 < 正 走 在 街 上 的 人 ”， 作 为 “没有 人 


会 随 屿 携 融和 茶壶 ”的 常识 的 反映 ， 这 个 类 将 不 会 实现 get_teapot(0) 方 法 ， 
所 以 一 调用 make_tea0) 就 会 产生 一 个 找 不 到 get_teapot0 方 法 的 
AttributeError。 由 此 程序 员 马 上 会 想到 * 正 走 在 街 上 的 人 * 边 走边 泡 茶 
这 样 的 需求 是 不 合理 的 ， 从 而 能 够 在 更 高 层次 上 考虑 业务 的 合理 性 ， 
在 更 接近 本 源 的 地 方 修正 错误 。 


但 是 ， 这 上 段 代码 并 不 完美 。 老 板 (OfficePeople 的 一 个 实例 ) 拥有 
巨大 的 办 公 室 ， 他 购置 了 功夫 和 茶具， 他 要 在 办 公 室 喝 功夫 茶 了 。 怎 么 
办 ? 答案 有 两 种 ， 一 种 是 从 OfficePeople 继 承 子 类 Boss， 重 写 它 的 
get_teapot0， 使 它 返 回 功夫 茶具 ; 另 一 个 则 是 把 get_teapot() 方 法 提取 
出 来 ， 把 它 以 多 继承 的 方式 做 一 次 静态 混入 。 


class UseSimpleTeapot(object): 
def get_teapot(self): 
return SimpleTeapot() 
class USseKkungfuTeapot(object ) : 
def get_teapot(self): 
return KungfuTeapot ( ) 
Class OfficePeople(People, UseSimpleTeapot):pass 
class HomePeople(People, UsekungfuTeapot):pass 
Class Boss(People, UsekungfuTeapot):pass 


这 样 束 很 好 地 解决 了 老板 在 办 公 室 也 要 哆 功夫 茶 的 需求 。 但 是 这 
样 的 代码 仍然 没有 把 Python 的 动态 性 表现 出 来 ， 当 新 的 需求 出 现时 ， 
需要 更 改 类 定义 。 比 如 随 着 公司 扩张 ， 越 来 越 多 的 人 入 职 ， 
OffiecPeople 的 需求 越 来 越 多 ， 开 始 出 现 有 人 不 喝 和 而 是 喝 咖 啡 ， 也 有 
人 既 喜 欢 喝 双 还 喜欢 喝 咖 啡 ， 出 现 了 喜欢 在 独立 办 公 室 抽 雪 基 的 职业 
经 理 人 ..…... 这 些 类 越 来 越 多 ， 代 码 越 发 难以 维护 。 让 我 们 开始 寄 户 于 
动态 地 生成 不 同 的 实例 。 


def simple_tea people(): 
people = People() 
people. bases += (UseSimpleTeapot,) 
return people 

def coffee people( ): 
people = People() 
people. bases _ += (UseCoffeepot,) 
return people 


def tea_and_coffee_people() : 
people = People() 
people. bases _ += (UseSimpleTeapot, UseCoffeepot,) 
return people 

def boss(): 
people = People() 
people. bases += (KungfuTeapot, UseCoffeepot,) 
return people 


这 个 代码 能 够 运行 的 原理 是 ， 每 个 类 都 有 一 个 _bases_ 属 性， 它 
征 一 个 元 组 ， 用 来 存放 所 有 的 基 类 。 与 其 他 静态 语言 不 同 ，Python 语 
言 中 的 基 类 在 运行 中 可 以 动态 改变 。 所 以 当 我 们 回 其 中 增加 新 的 基 类 
时 ， 这 个 类 就 拥有 了 新 的 方法 ， 也 就 是 所 谓 的 混入 (mixin) 。 这 种 动 
态 性 的 好 处 在 于 代码 获得 了 更 丰富 的 扩展 功能 。 想 象 一 下 ， 你 之 前 写 
好 的 代码 并 不 需要 个 性 ， 只 要 后 期 为 它 增 加 基 类 ， 残 能 够 增强 功能 
(或 替换 原 有 行为 ) ， 这 多 么 方便 ! 值得 进一步 探索 的 是 ， 利 用 反射 
技术 ， 长 至 不 需要 修改 代码 。 假 定 我 们 在 OA 系统 里 定义 员工 的 时 候 ， 
有 一 个 特性 选择 页 面 ， 在 里 面 可 以 勾 选 该 员工 的 需求 。 比 如 对 于 
Boss， 可 以 匀 选 功夫 有 共和 咖啡 ， 那 么 通过 的 代码 可 能 如 下 : 


import mixins 

def staff(): 
people = People(): 
bases = [] 
for i In config,checked()， 

bases.append(getattr(mixins, i)) 

people. bases += tuple(bases) 
return people 


看 ， 通 过 这 个 框架 代码 ，OA 系 统 的 开发 人 员 只 需要 把 员工 常见 的 
需求 定义 成 Mixin 预 告 放 在 mixins 模 块 中 ， 束 可 以 在 不 修改 代码 的 情况 
下 通过 管理 界面 满足 几乎 所 有 需求 了 。Python 的 动态 性 优势 也 在 这 个 
例子 中 得 到 了 很 好 的 展现 。 


建议 52: 用 发 布 订 阅 模 式 实现 松 精 合 


发 布 订 阅 模 式 (publish/subscribe 或 pub/sub) 是 一 种 编程 模式 ， 消 
息 的 发 送 者 (发 布 者 ) 不 会 发 送 其 消息 给 特定 的 接收 者 (订阅 者 ) ， 
而 是 将 发 布 的 消息 分 为 不 同 的 类 别 直 接 发 布 ， 并 不 关注 订 阅 者 是 谁 。 
而 订阅 者 可 以 对 一 个 或 多 个 类 别 感 兴趣 ， 且 只 接收 感 兴趣 的 消息 ， 并 
且 不 关注 是 哪个 发 布 者 发 布 的 消息 。 这 种 发 布 者 和 订阅 者 的 解 耦 可 以 
允许 更 好 的 可 扩 放 性 和 更 为 动态 的 网 络 拓扑 ， 故 受到 了 大 家 的 喜爱 。 


发 布 订阅 模式 的 优点 是 发 布 者 与 订阅 者 松散 的 耦合 ， 双 方 不 需要 
知道 对 方 的 存在 。 由 于 主题 是 被 关注 的 ， es 
拓扑 坚 无 所 知 。 无 论 对 方 是 否 存在 ， 发 送 者 和 订阅 者 都 可 以 继续 正 
操作 。 要 实现 这 个 模式 ， 束 需要 有 一 个 中 间 代 理 人 ， 在 实现 中 一 二 视 
称 为 Broker， 它 维护 着 发 布 者 和 订阅 者 的 关系 .订阅 者 把 感 兴趣 的 主 
题 告诉 它 ， 而 发 布 者 的 信息 也 通过 它 路 由 到 各 个 订阅 者 处 。 简 单 的 实 
现 如 下 : 


from collections import defaultdict 
route_ table = defaultdict(1ist) 
def sub(self, topic, callback): 

If callback in route_ table[topic] 


oute Bt 0 
def Bub Cou topic, 
or func in a i 
func(*a, **kw) 


这 个 实现 非常 简单 ， 直 接 放 在 一 个 叫 Broker.py 的 模块 中 (这 显然 
是 单 件 ) ， 省 去 了 各 种 参数 检测 、 优 先 处 理 的 需求 等 ， 甚 至 没有 取消 
订阅 的 函数 ， 但 它 的 确 展现 了 发 布 订 阅 模式 实现 的 最 基础 的 结构 ， 它 
的 应 用 代码 也 可 以 运行 。 


import Broker 
def greeting(name): 

print 'Hello, %s.'%name 
Broker.sub('greet', greeting) 
De "LaiYonghao ' ) 
输出 
Hello, LiaYonghao. 


相对 于 这 个 人 简化 版 本 ，blinker 和 python-message 两 个 模块 的 实现 要 
完备 得 多 。blinker 已 经 被 用 在 了 多 个 广 受 欢迎 的 项 目 上 ， 比 如 flask 和 
django; 而 python-message 则 文 持 更 多 丰富 的 特性 。 本 市 以 python- 
message 的 使 用 为 例 ， 讲 解 发 布 订阅 模式 的 应 用 场景 。 


安装 python-message 相 当 人 简单 ， 通 过 pip 安 装束 可 以 了 。 


pip install message 


然后 简单 验证 一 下 。 


import message 
def hello(name): 

print 'hello, %s.'%name 
message.sub('greet', hello) 
message.pub('greet', 'lai') 


运行 输出 如 下 : 


hello, lai. 


接 下 来 用 它 解决 一 些 实际 问题 。 假 是 你 给 项 目 组 开发 了 一 个 程序 
库 foo， 里 面 有 一 个 非常 重要 的 函数 


bar。 


def bar(): 
print 'Haha, Calling bar().' 
do_sth() 


这 个 函数 如 此 重要 ， 所 以 你 给 它 加 上 了 一 行 输出 代码 ， 用 以 输出 
日 志 。 后 来 你 的 这 个 程序 库 foo 被 大 量 使 用 了 ， 一 直 运行 得 很 好 ， 直 到 
又 一 个 新 项 目 拖 你 过 去 “救火 "， 因 为 出 了 bug 无 法 查 出 原因 ， 怀 疑 是 
foo 的 问题 。 你 查看 了 很 久 日 志 ， 都 没有 发 现 他 们 调用 bar0 的 痕迹 ， 一 
问 ， 原 来 他 们 是 用 logging 的 ， 标 准 输出 在 做 Daemon 的 时 候 被 重 定 同 到 
了 /dev/null。 在 临时 修改 了 输出 重 定 同 以 后 ， 找 到 了 了 bug 所在， 并 解决 
了 。 然 后 你 开始 着 手 解 决 这 个 问题 。 一 开始 你 想 在 你 的 foo 认 中 引入 
logging， 但 原来 的 项 目 又 不 用 logging， 你 在 程序 库 里 引入 logging， 但 
谁 来 初始 化 它 呢 ? 就 算 你 引入 了 logging， 则 你 们 的 项 目 可 能 是 用 
logging.getLogger('prjA') 获 取 logger， 男 一 个 项 目 可 能 是 用 
logging.getLogger(prjB])， 日 后 还 有 新 项 目 呢 ! 一 想到 要 兼容 这 么 多 项 
目 你 就 头 大 了 。 忍 痛 割 爱 ， 把 print 语 句 给 删除 掉 吧 ， 又 怕 日 后 出 了 癌 
题 自 己 都 找 不 到 bug， 那 还 不 是 和 目 己 加 班 自己 吾 。 这 个 时 候 ， 不 妨 让 
python-message 来 帮 你 ， 轻 松 改 一 下 bar() 函 数 。 


import message 

LOG MSG = ('l0g', 'foo') 

def bar(): 
message.pub(LOG MSG, 'Haha, Calling bar().') 
do_sth() 


在 已 有 的 项 目 中 ， 只 需要 在 项 目 开 始 处 加 上 这 样 的 代码 ， 继 续 把 
日 志 放 到 标准 输出 。 


Import message 
Import foo 
def handle_foo_log msg(txt): 
print txt 
message.sub(foo.LOG MSG, handle_foo_log_msg) 


而 在 那个 使 用 logging 的 新 项 目 中 ， 则 这 样 修改 : 


def handle foo_ log msg(txt): 
import logging 
logging.debug(txt) 


甚至 在 一 些 不 关注 底层 库 的 日 志 项 目 中 ， 直 接 无 视 束 可 以 了 。 通 
过 message， 可 以 轻松 获得 库 与 应 用 之 间 的 解 耕 ， 因 为 库 关 注 的 是 要 有 
日 志 ， 而 不 关注 日 志和 输出 到 哪里 ， 应 用 关注 的 是 日 志 要 统一 放置 ， 但 
不 天 注 谁 往日 志文 件 中 输出 内 容 ， 这 正 与 发 布 订阅 模式 的 应 用 场景 不 


诬 而 合 。 


除了 简单 的 sub0/pubO 之 外 ，python-message 还 支持 取消 订阅 
(unsubQO)) 和 中 止 消息 传递 。 


import message 
def hello(name): 
print 'hello %s' % name 
ctx = message.Context() 
ctx.discontinued = True 
return ctx 
def hi(name): 
print 'u cann\'t c me.' 
message.sub('greet', hello) 
message.sub('greet', hi) 
message.pub('greet', 'lai') 


python-message 利 用 回调 函数 的 返回 值 来 实现 取消 消 思 传递， 非常 
巧妙 〈 读 者 可 以 思考 一 下 为 什么 能 够 利用 回调 函数 的 返回 值 ) 。 在 上 
面 这 个 例子 中 ， 运 行 后 是 看 不 到 “u can't c me.” 这 一 行 输出 的 ， 因 为 消 
息 在 调用 hello(O) 后 就 中 止 传递 了 (Broker 使 用 list 对 象 存储 回调 函数 就 
是 为 了 保证 次 序 ) 。 


python-message 是 同步 调用 回调 画 数 的 ， 也 就 是 说 谁 先 sub 谁 就 先 
被 调用 。 大 部 分 情况 下 这 样 已 经 能 够 满足 大 分 需求 ， 但 有 时 需要 后 sub 
的 函数 先 被 调用 ， 这 时 message.sub 函 数 通 过 一 个 默认 参数 来 支持 的 ， 
只 需要 简单 地 在 调用 sub 的 时 候 加 上 front=True， 这 个 回调 函数 将 被 插 
到 所 有 之 前 已 经 sub 的 回调 函数 之 前 : sub(greet,hello,front=True)。 


订阅 /发 布 模式 是 观察 者 模式 的 超 集 ， 它 不 关注 消息 是 谁 发 布 的 ， 
也 不 关注 消息 由 谁 处 理 。 但 有 时 候 我 们 也 希望 某 个 目 己 的 类 的 也 能 够 
更 方便 地 订阅 /发 布 消 息 ， 也 束 是 想 退 化 为 观察 者 模式 ，python- 
message 同 样 提供 了 支持 。 如 以 下 代码 : 


from message import observable 
def greet(people): 
print 'hello, %s.'%people.name 
Qobservable 
class Foo(object): 
def _ init (self, name): 
print "Foo' 
self.name = name 
self.sub('greet', greet) 
def pub_greet(self): 
self.pub('greet', self) 
foo = Foo('lai') 
foo.pub_greet() 


python-message 提 供 了 类 装饰 函数 observable0)， 任 何 class 只 需要 通 
过 它 装饰 一 下 就 拥有 了 sub/unsub/pub/declare/retract 等 方法 ， 它 们 的 使 
用 方法 跟 全 局 函数 是 类 似 的 ， 在 此 不 性 述 。 


因为 python-message 的 消 轧 订阅 默认 是 全 局 性 的 ， 所 以 有 可 能 产 
生 名 字 冲 突 。 在 减少 名 字 冲 突 方面 ， 可 以 借鉴 java/actionscript3 的 
package 起 名 策略 ， 比 如 在 应 用 中 定义 消息 主题 常量 
FOO='com.googlecode.python-message.FOO'， 这 样 多 个 库 同时 定义 
FOO 第 量 也 不 容易 冲突 。 除 此 之 外 ， 还 有 一 招 就 是 使 用 uuid， 如 下 : 


uuid = 'bd61825688d72b345ce07057b2555719 
FO0 = uuid + 'FOO' 


建议 53: 用 状态 模式 美化 代码 


所 谓 状 态 模式 ， 吏 是 当 一 个 对 象 的 内 在 状态 改变 时 允许 改变 其 行 
为 ， 但 这 个 对 象 看 起 来 像 是 改变 了 其 类 。 状 态 模式 主要 用 于 控制 一 个 
对 象 状态 的 条 件 表达 式 过 于 复杂 的 情况 ， 其 可 把 状态 的 判断 逻辑 转移 
到 表示 不 同 状态 的 一 系列 类 中 ， 进 而 把 复杂 的 判断 逻辑 简化 。 


得 益 于 Python 语言 的 动态 性 ， 状 态 模 式 的 Python 实现 与 C++ 等 语言 
的 版 本 比 起 来 简单 得 多 。 举 个 例子 ,一 个 人 ， 工 作 日 和 周 日 的 日 常生 
活 是 不 同 的 。 


def workday() : 
rint 'work hard!' 
def weekend( ) : 
print 'play harder!' 
class People(object):pass 
people = People() 
while True: 
for i In xrange(1, 8): 
if i == 6: 
se day = weekend 
if i == 
i day = workday 
people.day() 


运行 上 述 代码 ， 输 出 如 下 : 


work hard! 
work hard! 
work hard! 
work hard! 
work hard! 
play harder! 
play harder! 


就 这 样 ， 通 过 在 不 同 的 条 件 下 将 实例 的 方法 〈 即 行为 ) 替换 掉 ， 
下 实现 了 状态 模式 。 但 是 这 个 简单 的 例子 仍然 有 以 下 缺陷 : 


查询 对 象 的 当前 状态 很 麻烦 。 


:状态 切换 时 需要 对 原状 态 做 一 些 清扫 工作 ， 而 对 新 的 状态 需要 做 
一 些 初始 化 工作 ， 因 为 每 个 状态 需要 做 的 事情 不 同 ， 全 部 写 在 切换 状 
态 的 代码 中 必然 重复 ， 所 以 需要 一 个 机 制 来 简化 。 


python-state 包 通过 几 个 辅助 钞 数 和 修饰 钞 数 很 好 地 解决 了 这 个 问 
题 ， 并 且 定 义 了 一 个 简明 状态 机 框 淋 。 移 用 pip 安 朔 它 。 


pip install state 


然后 用 它 改 写 之 前 的 例子 。 


from state import curr, switch, stateful,State, behavior 
@stateful 
class People(object): 
class Workday(State): 
default = True 
@behavior 
def day(self): 
print "work hard.' 
class Weekend(State ) : 
@behavior 
def day(self): 
print 'play harder!' 
people = People() 
while True: 
for i In xrange(1, 8): 
if i == 6: 
switch(people, People.weekend) 
if i == 1: 
switch(people, People.workday) 
people.day() 


怎么 样 ? 是 不 是 感觉 好 像 比 应 用 模式 之 前 的 代码 还 要 长 ? 这 是 因 
为 例子 太 简 单 了 ， 后 面 再 给 大 家 展示 更 贴近 真实 业务 需求 的 例子 。 现 
在 我 们 先 按 下 这 个 不 表 ， 单 看 最 后 一 行 的 people.day()。people 是 People 
的 一 个 实例 ， 但 是 People 并 没有 定义 day0 方 法 啊 ? 为 了 解决 这 个 疑 
惑 ， 需 要 我 们 从 头 看 起 。 


首先 是 @stateful 这 个 修饰 画 数 ， 它 包含 了 许多 “ 黑 魔 法 "， 其 中 最 
重要 的 是 重 载 了 被 修饰 类 的 _ getattr_ 0 方法 从 而 使 得 People 的 实例 能 
够 调用 当前 状态 类 的 方法 。 被 @stateful 修 饰 后 的 类 的 实例 是 融 有 状态 
的 ， 能 够 使 用 curr() 人 查询 当前 状态 ， 也 可 以 使 用 switch() 进 行 状 态 切 
换 。 接 下 来 继续 往 下 看 ， 可 以 看 到 类 Workday 继 续 目 State 类 ， 这 个 
State 类 也 是 来 自 于 state 包 ， 从 其 派生 的 子 类 能 够 使 用 _begin 和 
”end 状态 转换 协议 ， 通 过 重 载 这 两 个 协议 ， 子 类 能 够 和 目 定义 进入 和 
离开 当前 状态 时 对 宿主 〈 在 本 例 中 即 people) 的 初始 化 和 清理 工作 。 
对 于 一 个 @stateful 类 而 言 ， 有 一 个 默认 的 状态 ( 即 其 实例 初始 化 后 的 
第 一 个 状态 ) ， 通 过 类 定义 的 default 属 性 标识 ，default 设 置 为 True 的 类 
成 为 默认 状态 。@behavior 修 饰 钞 数 用 以 修饰 状态 类 的 方法 ， 其 实 它 是 
内 置 钞 数 staticmethod 的 别名 。 为 什么 要 将 状态 类 的 方法 实现 为 静态 方 
法 昵 ? 因为 state 包 的 原则 是 状态 类 只 有 行为 ， 没 有 状态 (状态 都 保存 
在 宿主 上 ) ， 这 样 可 以 更 好 地 实现 代码 重用 。 那 么 day0 方 法 既然 是 静 
态 的 ， 为 什么 有 self 参 数 ? 这 其 实 是 因为 self 并 不 是 Python 的 关键 字 ， 
在 这 里 使 用 self 有 助 于 理解 状态 类 的 答 主 是 People 的 实例 。 


至 此 ， 读 者 对 state 这 个 人 简单 的 包 束 基本 上 了 解 清 楚 了 。 下 面 讲 一 
个 来 自 真 实业 务 的 例子 ， 看 它 如 何 美化 原 有 的 代码 。 在 网 络 编程 中 ， 
通常 有 一 个 User 类 ， 每 一 个 在 线 用 户 都 有 一 个 User 的 实例 与 之 对 应 。 
User 有 一 些 方法 ， 需 要 确保 用 户 登 录 之 后 才能 调用 ， 比 如 查看 用 户 信 
妃 。 这 些 方法 大 概 像 这 样 : 


Class USser(object ) : 
def signin(self, usr, pwd): 


Self,_ signin = True 
def do_sth(self, *a, **kw): 
If not self._signin: 
raise NeedSignin() 


真实 项 目 中 ， 类 似 do_sthO 的 业务 代码 数量 不 少 ， 如 果 每 个 函数 前 
两 行 都 是 if...raise...， da 那么 可 以 想象 得 出 来 代码 
该 有 多 么 难看 (代码 一 重复 就 不 好 看 了 ) 。 这 时 候 程 序 员 会 选择 使 用 
decorator 来 修饰 这 些 业 务 代码 。 


def ensure_signin(func): 
def _func(self, *a, **kw): 
If not self._signin: 
raise NeedSignin() 
return func(self, *a, **kw) 
return _func 
@ensure_signin 
def do_sth(self, *a, **kw): 


上 述 代 码 看 上 去 很 完美 的 解决 方案 ， 而 且 @ensure_signin 相 当 
Pythonic。 但 是 想象 一 下 ， 某 些 地 方 ， 你 除了 要 确定 登录 之 外 ， 还 需 
要 确定 是 否 在 战斗 副本 中 ， 角 色 是 否 已 经 死亡 .…... 等 等 。 想 象 一 下 ， 
a 每 个 方法 上 面 都 顶 着 四 五 个 修饰 贸 数 ， 该 有 多 么 刁 
陋 ! 这 就 是 状态 模式 可 以 美化 的 地 方 。 


@stateful 
class User(object): 
class NeedSignin(State): 
default = True 
Q@behavior 
def signin(self, usr, pwd): 
switch(self, Player.Signin) 
class Signin(State): 
@behavior 
def move(self, dst): 
Q@behavior 
def atk(self, other): ... 


可 以 看 到 ， 当 用 户 登 录 以 后 ， 束 切换 到 了 Player.Signin 状 态 ， 而 在 
Signin 状 态 的 行为 是 不 需要 做 是 否 已 经 登录 的 判断 的 ， 这 是 因为 除了 
登录 成 功 ，User 的 实例 无 法 跳 转 到 Signin 状 态 ， 反 过 来 说 就 是 只 要 当前 
状态 是 Signin， 那 必定 已 经 登录 ， 目 然 无 须 再 验证 。 


可 以 看 到 ， 通 过 状态 模式 ， 可 以 像 decorator 一 样 去 掉 if...raise... 上 
下 文 判断 ， 但 比 它 更 棱 的 是 真 的 一 个 if...raise... 都 没有 了 。 男 外 ， 需 要 
多 重 判 断 的 时 候 要 给 一 个 方法 戴 上 四 五 项“ 帽子 ”的 情况 也 没有 了 了， 还 
通过 把 多 个 方法 分 派 到 不 同 的 状态 类 ， 消 灭 掉 一 般 情况 下 Player 总 是 
一 个 巨 类 的 “ 坏 味 道 ”， 保 持 类 的 短小 ， 更 容易 维护 和 重用 。 不 过 这 些 
都 比 不 上 一 个 更 大 的 好 处 ， 当 调用 当前 状态 不 存在 的 行为 时 ， 出 错 信 
娠 抛 出 的 是 AttributeError， 从 而 避免 把 问题 变 为 复杂 的 逻辑 错误 ， 让 
程序 员 更 容易 找到 出 错位 置 ， 进 而 修正 问题 。 


第 6 草 ”内 部 机 人 制 


“ 知 其 然 还 必须 知 其 所 以 然 "， 除 了 掌握 python 本 身 的 语法 以 及 使 
用 外 ， 对 其 内 部 机 制 的 探索 可 以 让 我 们 更 深入 地 理解 和 掌握 语言 本 号 
所 列 含 的 思想 和 理念 。 本 章 将 探讨 Python 的 一 些 内 部 机 制 以 及 高 于 语 
法 级 别 的 话题 ， 包 括 名 字 查 找 机 制 、 描 述 符 、 对 象 的 管理 与 回收 ， 以 
及 和 迭代 噩 协议 等 。 通 过 本 章 ， 布 望 读 者 可 以 更 好 地 理解 和 掌握 Python 
的 精 骨 及 其 哲学 原理 。 


建议 54: 理解 built-in objects 


我 们 知道 Python 中 一 切 色 对 象 : 字符 是 对 象 ， 列 表 是 对 象 ， 内 建 类 
型 \built-in type) 也 是 对 象 ， 用户 定 义 的 类 型 是 对 象 ，object 是 对 象 ， 
type 也 是 对 象 。 自 Python2.2 之 后 ， 为 了 弥补 内 建 类 型 和 古典 类 (classic 
classes) 之 间 的 鸿沟 中 引入 了 新 式 类 (new-style classes) 。 在 新 式 类 
中 ，object 是 所 有 内 建 类 型 的 基 类 ， 用 户 所 定义 的 类 可 以 继承 自 object 
也 可 继承 自 内 建 类 型 。 


那么 内 建 类 型 、object 、type 以 及 用 户 所 定义 的 类 之 间 到 奔 有 什么 
天 系 呢 ? 它们 之 间 本 质 上 有 什么 不 同 吗 ? 我们 来 看 一 个 简单 的 例子 : 


class A: 
古典 类 A 


pass 

class B(object ) : 
ass 

class C(type): 
pass 

class D(dict): 

©@D 

继承 自 内 建 类 型 dict 


pass 


现在 有 类 A 、B 、C 、D 的 实例 分 别 对 应 为 a 、b 、c 、d， 我 们 来 看 一 
组 求 值 的 结 末 ， 如 表 6-1 所 示 。 


表 6-1 不 同 对 象 求 值 结 


全 加 二 二 (*,type) 
<type type> 真 
<type type > (<type 一 一 一 ,) 直 


_main_A 0 | 真 恨 
<class' main .B'> | (<type 'object'>. 真 假 


<class' main _.C> |(<type 'type'>, 真 真 


<class' main .D'> |(<type 'dict>， 真 假 


注 : 上 表 中 求 值 时 * 用 表 中 人 第 一 列 的 元 素 代 替 。 
从 表 6-1 中 我 们 可 以 得 出 如 下 结论 : 
:object[1] 和 古典 类 [3] 没 有 基 类 ，type[2] 的 基 类 为 object 。 


.新 式 类 〈[4],[5],[6]) 中 type0 的 值 和 __class_ 的 值 是 一 样 的 ， 但 十 
典 类 [3] 中 实例 的 type 为 instance， 其 type(0) 的 值 和 class_ 的 值 不 一 样 。 


继承 自 内 建 类 型 的 用 户 类 的 实例 [6] 也 是 object 的 实例 ，object[1] 是 
type 的 实例 ，type 实 际 是 个 元 类 (metaclass) 。 


:object 和 内 建 类 型 以 及 所 有 基于 type 构 建 的 用 户 类 [5] 都 是 type 的 实 
例 。 


.在 古典 类 中 ， 所 有 用 户 定 义 的 类 的 类 型 都 为 instance。 
综 上 ， 不 同类 型 的 对 象 之 间 的 关系 如 图 6-1 所 示 。 


New style class Classic class 


图 6-1 不 同类 型 对 象 的 关系 图 


我 们 知道 古典 类 和 新式 类 的 一 个 区 别 是 : 新 式 类 继承 自 object 类 或 
者 内 建 类 型 。 那 么 是 不 是 可 以 这 么 理解 : 如 果 一 个 类 定义 的 时 候 继承 
目 object 或 者 内 建 类 型 ， 那 么 它 束 是 一 个 新 式 类 ， 否 则 则 是 古典 类 ? 我 
们 来 看 一 个 例子 : 


>>> class TestNewClass: 

_ metaclass = type 
QD 设置 metaclass 
I 


>>> 

>>> type(TestNewClass) 
<type 'type'> 

>>> TestNewClass. bases _ 
(<type 'object'>,) 

>>> 

>>> a= TestNewClass() 

>>> type(a) 


<class ' main .TestNewClass'> 
>>> a.__Cclass 
<class ' main .TestNewClass'> 


es 


从 上 述 例 子 我 们 可 以 看 出 ，TestNewClass 在 定义 的 时 候 并 没有 继承 
任何 类 ， 但 测试 的 结果 表明 其 父 类 为 object， 它 还 是 属于 新 式 类 。 这 其 
中 的 原因 在 于 TestNewClass 中 设置 了 metaclass ”属性 〈 关 于 元 类 的 更 
多 介绍 可 以 参看 后 面 的 章 方 ) 。 所 以 我 们 并 不 能 简单 地 从 定义 的 形式 
上 来 判断 一 个 类 是 新 式 类 还 是 古典 类 ， 而 应 当 通 过 元 类 的 类 型 来 确定 
类 的 类 型 : 古典 类 的 元 类 为 types.ClassType， 新 式 类 的 元 类 为 type 类 和 


新 式 类 相对 于 古典 类 来 说 有 很 多 优势 : 能 够 基于 内 建 类 型 构建 新 
的 用 户 类 型 ， 文 持 property 和 描述 符 特 性 等 。 作 为 新 式 类 的 祖先 ， 
Object 类 中 还 定义 了 一 些 特殊 方法 ， 如 : _new_ 0，_ init _ 0， 
_ delattr (), _ getattribute (), _setattr (), _ hash (), __repr_/(), 
_ str () 等 。object 的 子 类 可 以 对 这 些 方法 进行 履 盖 以 满足 目 号 的 特殊 
需求 ， 建 议 62 中 会 对 其 中 某 些 内 容 详 细 阐 述 ， 感 兴趣 的 读者 可 以 阅 


击 o 


[1] 这 里 的 鸿沟 指 的 是 : 在 2.2 版 本 之 前 ， 类 和 类 型 并 不 统一 ， 如 a 是 十 
典 类 ClassA 的 一 个 实例 ， 那 么 a_ class 返回 “class_main ClassA’， 
type(a) 返 回 <type 'instance>。 当 引入 新 类 后 ， 比 如 ClassB 是 个 新 类 ，b 
是 ClassB 的 实例 ， b cass 和 type(b) 都 是 返 
Bl‘class' main .ClassB’° 


建议 55: _ init_ 0) 不 是 构造 方法 


很 多 Pythoner 会 有 这 样 的 误解 ， 认 为 _init_() 方 法 是 类 的 构造 方 
法 。 因 为 从 表面 上 看 它 确实 很 像 构造 方法 : 当 需 要 实例 化 一 个 对 象 的 
时 候 ， 使 用 a=Class(args...) 便 可 以 返回 一 个 类 的 实例 ， 其 中 args 的 参数 
与 _init (方法 中 申明 的 参数 一 样 。 可 是 事实 真相 是 怎样 的 呢 ? 我 们 
通过 例子 说 明 。 


class A(object ) : 

def _new_ (cls, *args, **kwargs): 
print cls 
print args 
print kwargs 
print WO mh 
instance = object. new_ (cls, *args, **kwargs) 
print instance 

def _ init (self,a, b): 
print "init gets called" 
print "self is", self 
self.a, self.b = a，b 


al=A(1,2) 
print al1.a 
print al.b 
运行 程序 输出 如 下 : 
<class '_ main .A'> 
(1, 2) 
{} 


<_ main .A object at Ox0Q0D66B30> 

Traceback (most recent call last): 

File "test.py", line 15, in <module> 

print al1.a 

AttributeError: 'NoneType' object has no attribute 'a' 


我 们 原本 期 望 的 是 能 够 正确 输出 a 和 b 的 值 ， 可 是 运行 却 抛 出 了 异 
常 。 除 了 异常 外 还 有 来 自 对 _new_ 0 方法 调用 所 产生 的 输出 ， 可 是 我 
们 明明 没有 直接 调用 _new_0 方 法， 原因 在 哪里 ? 实际 上 init 0 并 
不 是 真正 意义 上 的 构造 方法 ，_init_0 方 法 所 做 的 工作 是 在 类 的 对 象 


创建 好 之 后 进行 变量 的 初始 化 。_new_ 0 方法 才 会 真正 创建 实例 ， 是 
类 的 构造 方法 。 这 两 个 方法 都 是 object 类 中 默认 的 方法 ， 继 承 自 object 
的 狐 式 类 ， 如 采 不 覆盖 这 两 个 方法 将 会 默认 调用 object 中 对 应 的 方法 。 
上 面 的 程序 抛 出 异常 是 因为 _new_ 0 方法 中 并 没有 显 式 返回 对 象 ， 
此 实际 上 al 为 None， 当 去 访问 实例 属性 a 时 抛 出 “AttributeError: 
'NoneType' object has no attribute 'a” 的 错误 也 残 不 难 理解 了 。 


我 们 来 看 看 _new_ (方法 和 init_ (0 方法 的 定义 。 


-object. new (cls[,args...] ) : 其 中 cls 代 表 类 ，args 为 参数 列 
表 o 


.object，_init_ (self [ ,args...] ) : 其 中 self 代 表 实 例 对 象 ，args 为 参 
数列 表 。 


-这 两 个 方法 之 间 有 些 不 同 点 ， 总 结 如 下 : 


.根据 Python 文档 
(http://docs.python.org/2/reference/datamodel.html#object. new ) 可 


知 ，_ new_ 0 方法 是 静态 方法 ， 而 _init 0 为 实例 方法 。 


:_new_ (方法 一 般 需 要 返回 类 的 对 象 ， 当 返回 类 的 对 象 时 将 会 
动 调用 _init_() 方 法 进行 初始 化 ， 如 果 没 有 对 象 返 回 ， 则 _ init _() 方 
法 不 会 被 调用 。_init_0 方 法 不 需要 显 式 返回 ， 默 认为 None， 否 则 会 
在 运行 时 抛 出 TypeError。 


当 需 要 控制 实例 创建 的 时 候 可 使 用 _new_ 0 方法， 而 控制 实例 初 
台 化 的 时 候 使 用 _init (0 方法 。 


一 般 情况 下 不 需要 和 窗 盖 ”new_ 0 方法 ， 但 当 子 类 继承 自 不 可 变 类 
型 ， 如 str、int、unicode 或 者 tuple 的 时 候 ， 往 往 需要 覆盖 该 方法 。 


当 需 要 履 盖 _new_(0 和 _ init 0 方法 的 时 候 这 两 个 方法 的 参数 必 
须 保持 一 人 怪 ， 如 琳 不 一 致 将 导致 异常 。 示 例如 下 : 


>>> class Test(object): 
def _new_ (cls,x): 
return super(Test,cls). new _ (cls) 
def _ init_ (self,x,y): 
Self .x=x 
Self.y = y 
>>> Test(1) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: _ init () takes exactly 3 arguments (2 given) 
>>> Test(2,3) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: _ new_ () takes exactly 2 arguments (3 given) 
>>> 


前 面 我 们 提 到 ， 一 上 般 情况 下 和 窗 盖 init_ (方法 就 能 满足 大 部 分 需 
求 ， 那 么 在 什么 特殊 情况 下 需要 窗 盖 ”new_0 〇 方法 呢 ? 有 以 下 几 种 情 
况 : 


1) 当 类 继承 (如 str、int、unicode、tuple 或 者 forzenset 等 ) 不 可 变 
类 型 日 默认 的 _new_0 方 法 不 能 满足 需求 的 上 时候。 来 看 一 个 例子 : 假 
设 我 们 需要 一 个 不 可 修改 的 集合 ， 该 集合 能 够 将 任何 以 空格 隔 开 的 字 
符 串 变 为 集合 中 的 元 素 。 现 在 不 禾 兰 new_() 方 法 ， 仅 肿 亩 _init_0) 
方法 看 看 是 否 可 行 。 


class UserSet(frozenset): 
def __ init (self, arg=None): 
if isinstance(arg, basestring): 
arg = arg.split() 
frozenset. init_ (self, arg) 
print UserSet("I am testing ") 
print frozenset("I am testing ") 


运行 程序 发 现 其 输出 如 下 : 


Userset(['a', 1 7 'e', lo TT 'm', 'n', 7 SR 《人 
frozenset(['a', 1 ey ev “gy Ley 'm', 'n', dy Pen, 1 


显然 没有 满足 用 户 的 需求 ， 用 户 和 希望 得 到 的 输出 是 UserSet ( [T， 
'frozen', 'set', 'am', tesing] ) 。 实 际 上 这 些 不 可 变 类 型 的 _init (0) 方 法 是 
个 伪 方 法 ， 必 须 重 新 履 盖 new__“() 方 法 才能 满足 需求 。_new__() 方 法 
实现 的 代码 如 下 : 


def _new_ (cls, *args): 
if args and isinstance (args[0], basestring): 
args = (args[0].split (),) + args[1:] 
return Super (UserSet, cls). new_(cls, *args) 


2) 用 来 实现 工厂 模式 或 者 单 例 模式 或 者 进行 元 类 编程 (元 类 编程 
中 常常 需 要 使 用 _new_ (来 控制 对 象 创建 。 这 部 分 内 容 会 在 建议 62 中 
进行 阐述 ) 的 时 候 。 以 简单 工厂 为 例子 ， 它 由 一 个 工厂 类 根据 传 入 的 
参量 决定 创建 出 哪 一 种 产品 类 的 实例 ， 属 于 类 的 创建 型 模式 。 其 类 的 
关系 如 图 6-2 所 示 。 


Shape(Object) 


ShapeFactory 


init () 
tdraw!() 


Triangle Shapess Trapezoid 


Diamond 
| 


+ init () 
tHdraw!() 


+ init () + init () + init () 
t+draw!() tdraw'() Hdraw() 


图 6-2 ”简单 工厂 模式 类 关系 示意 


工厂 模式 的 实现 代码 如 下 : 


class Shape(object ) : 
def _ init (object): 


pass 
def draw(self): 
pass 


class Triangle(Shape): 
def _ init (self): 
print " I am a triangle" 
def draw(self): 
print "I am drawing triangle" 
class Rectangle(Shape): 
def _ init (self): 
print " I am a rectnagle" 
def draw(self): 
print "I am drawing triangle" 
class Trapezoid(Shape): 
def __ init (self): 
print " I am a trapezoid" 
def draw(self): 
print "I am drawing triangle" 
class Diamond(Shape): 
def _ init (self): 
print " I am a diamond" 
def draw(self): 
print "I am drawing triangle" 
class ShapeFactory(object ) : 
shapes = {'triangle': Triangle， 'rectangle': Rectangle, 'trapezoid ' : 
Trapezoid, 'diamond': Diamond} 
def _ new_ (klass, name): 
If name in ShapeFactory.shapes.keys(): 
print "creating a new shape %s" % name 
return ShapeFactory.shapes[name]() 
else: 
print "creating a new shape %s" % name 
return Shape() 


在 ShapeFactory 类 中 重新 履 盖 了 _new_() 方 法 ， 外 界 通过 调用 该 方 
法 来 创建 其 所 需 的 对 象 类 型 ， 但 如 果 所 请 求 的 类 是 系统 所 不 文 持 的 ， 
则 返回 shape 对 象 。 在 引入 了 工厂 类 之 后 ， 只 需要 使 用 如 下 形式 就 可 以 
创建 不 同 的 图 形 对 象 : 


ShapeFactory('rectangle').draw() 


3) 作为 用 来 初始 化 的 _init 0 方法 在 多 继承 的 情况 下 ， 子 类 的 
init (方法 如 来 不 显 式 调用 父 类 的 _init_0 方 法， 则 父 类 的 
_ init _() 方 法 不 会 被 调用 。 


def __ init (self): 
print "I am A's init _" 
class B(A): 
def __ init _(self): 
print "I am B's __ init _" 
b = B() 


程序 输出 为 : Iam B's_init 。 父 类 A 的 _init_(0) 方 法 并 没有 被 调 
用 ， 所 以 要 初始 化 父 类 中 的 变量 需要 在 子 类 的 _init_0 〇 方法 中 使 用 
super ( B,self ) .init _()°。 对 于 多 继承 的 情况 ， 我 们 可 以 通过 送 代 子 类 
的 _bases_ 属性 中 的 内 容 来 逐一 调用 父 类 的 初始 化 方法 。 


建议 56: 理解 名 字 碍 找 机 制 


在 Python 中 ， 所 有 所 谓 的 变量 ， 其 实 都 是 名 字 ， 这 些 名 字 指 癌 一 
个 或 多 个 Python 对 象 。 比 如 以 下 代码 ; 


> > 

>>> b = a 

>>> C = 'china' 
>>> id(a) == id(b) 
True 

>>> id(a) == id(c) 
False 


从 中 我 们 可 以 看 出 ， 名 字 a 和 b 指 问 同一 个 Python 对 和 象 ， 即 一 个 int 
类 型 的 对 象 ， 这 个 对 象 的 值 为 1， 而 c 则 指向 男 一 个 Python 对 象 ， 它 是 
一 个 str 类 型 的 对 象 。 所 有 的 这 些 名 字 ， 都 存在 于 一 个 表 里 〈 又 称 为 命 
名 空间 ) ， 一 般 情 况 下 ， 我 们 称 之 为 局 部 变量 (ocals) ， 可 以 通过 
locals0O) 函 数 调用 看 到 。 


>>> locals() 
{'a': 1, 'c': 'china', 'b': 1, '__ builtins _': <module '_ builtin _'" (built-in)>, 
'_ package ': None, '_ name ': ' main ', '_doc one} 


现在 我 们 是 直接 在 Python shell 中 执行 这 一 些 代码 ， 实 际 上 这 些 变 
量 也 是 全 局 的 ， 所 以 在 一 个 叫 globals 的 表 里 也 可 以 看 到 。 
>>> globals() 
{'a': 1, 'c' 


: 'china', 'b': 1, '_ builtins _': <module ' _ builtin _' (built-in)>, 
'_ package ': None, '_ name ': ' main ', '_ doc ': None} 


如 采 我 们 在 一 个 函数 里 面 定 义 这 些 变 量 ， 情 况 会 有 所 不 同 。 


>>> def foo(x): 
a e=1 


f=e 


g = 'china' 
bo ed 
pri "#1 
et gona1s() 
人 print '#' 
a print c 
QD 打印 全 局 变量 c 
>>> foo(1) 
'e': 1, 'g': 'china', ‘'f':; 1, 'x': 1} 
本 
{'a T 


C ed ‘b's 1 —builtins J <module '__ builtin _' (built- 
/ '_ Ppackage _ "1! None, '_ name ': '_ main ,， 'foo': <function foo at 
gx194faa529>， '_ doc ': None} 
########### 
china 


可 以 看 到 函数 中 的 locals() 返 回 值 并 不 包含 之 前 定义 在 全 局 中 的 a、 
b、c 等 名 字 ， 只 有 定义 在 函数 内 的 e、f、g 和 函数 形 参 x， 这 是 什么 原因 
呢 ? 要 回答 这 个 问题 首先 要 理解 Python 中 变量 的 作用 域 。 


Python 中 所 有 的 变 II 
名 的 创建 、 查 找 或 者 改变 都 会 在 命名 空间 (namespace) 中 进行 。 
名 所 在 的 命名 空间 直接 决定 了 其 能 访问 到 的 范围 ， 即 变量 的 作用 域 。 
Python 中 的 作用 域 自 Python2.2 之 后 分 为 局 部 作用 域 (local) 、 全 局 作 
用 域 (Global) 、 髓 套 作 用 域 (endlosing functions locals) 以 及 内 置 作 
用 域 (Build-in) 这 4 种 。 


:局 部 作用 域 : 一 般 来 说 函数 的 每 次 调用 都 会 创建 一 个 新 的 本 地 作 
拥有 新 的 命名 空间 。 因 此 函数 内 的 变量 名 可 以 与 函数 外 的 其 他 

量 名 相同 ， 由 于 其 命名 空间 不 同 ， 并 不 会 产生 冲突 。 默 认 情 况 下 男 
政 内 部 任意 的 虐 信 操作 (包括 = 语句 、import 语 句 、def 语 句 、 参 数 传递 
等 ) "0 如 果 没 用 global 语 句 ， 则 申明 都 为 局 部 变量 ， 即 
仅 在 该 男 数 内 可 见 


-全 局 作用 域 : 定义 在 Python 模块 文件 中 的 变量 名 拥有 全 局 作用 
域 ， 需 要 注意 的 是 这 里 的 全 局 仅 限 单个 文件 ， 即 在 一 个 文件 的 顶层 的 
变量 名 仅 在 这 个 文件 内 可 见 ， 并 非 所 有 的 文件 ， 其 他 文件 中 想 使 用 这 


些 变 量 名 必须 先导 入 文件 对 应 的 模块 。 当 在 函数 之 外 给 一 个 变量 名 赋 
值 时 是 在 其 全 局 作用 域 的 情况 下 进行 的 。 


- 艾 侠 作用 域 : 一 般 在 多 重男 数 嵌 套 的 情况 下 才 会 考虑 到 。 需 要 注 
意 的 是 global 语 句 仅 针对 全 局 变量 ， 在 嵌 套 作用 域 的 情况 下 ， 如 采 想 在 
般 套 的 男 数 内 修改 外 层 函 数 中 定义 的 变量 ， 即 使 使 用 gobal 进 行 申明 也 
不 能 达到 目的 ， 其 结果 最 终 是 在 内 套 的 函数 所 在 的 命名 空间 中 创建 了 
一 个 新 的 变量 。 示 例如 下 : 


Var = "a! 
def inner(): 
global var 
var = 'b" 
print 'inside inner, var is ', var 
inner() 
print "inside outer function, var is ', var 


上 述 程 序 的 输出 如 下 : 


inside inner, var is b 
inside outer function, var is a 


:内 置 作用 域 ， 这 个 相对 简单 ， 它 是 通过 一 个 标准 库 中 名 为 
_builtin _ 的 模块 来 实现 的 。 


回 到 前 面 代码 中 标注 Q) 的 语句 print c， 仍 然 正确 输出 了 china 这 个 
值 。 这 是 因为 当 访问 一 个 变量 的 时 候 ， 其 查找 顺序 遵循 变量 解析 机 制 
LEGB 法 则 ， 即 依次 搜索 4 个 作用 域 : 局 部 作用 域 、 藤 套 作 用 域 、 全 局 
作用 域 以 及 内 置 作 用 域 ， 并 在 第 一 个 找到 的 地 方 停止 搜寻 ， 如 采 没 有 
搜 到 ， 则 会 抛 出 异常 。 因 此 当 存 在 多 个 同名 变量 的 时 候 ， 操 作 生 效 的 
往往 是 搜索 顺序 在 前 的 。 具 体 来 说 Python 的 名 字 查 找 机 制 如 下 : 


1) 在 最 内 层 的 范围 内 查找 ， 一 般 而 言 ， 束 是 芳 数 内 部 ， 即 在 
locals() 里 面 查找 。 


2) 在 模块 内 查找 ， 即 在 globalsO0 里 面 查找 。 
3) 在 外 层 查找 ， 即 在 内 置 模块 中 查找 ， 也 就 是 在 _builtin 中 查 
找 。 


至 此 ， 我 们 可 以 理解 清楚 能 够 在 foo0 函 数 中 访问 到 名 字 c 的 原因 在 
于 当 Python 在 局 部 变量 中 找 不 到 c 时 ， 它 会 尝试 在 模块 级 的 全 局 变量 中 
查找 ， 并 成 功 地 找到 该 名 字 。 


不 过 ， 当 我 们 试图 改变 全 局 变量 的 值 时 ， 事 情 可 能 跟 想 象 的 稍 有 
不 同 。 


>>> def de 
= 'america' 
Die C 
>>> bar() 
america 
>>> print c 
china 


真 奇怪 ! 不 是 吗 ? 在 bar(0) 范 数 中 修改 c 的 值 ， 并 没有 修改 到 全 局 变 
量 的 c， 而 是 好 像 bar() 函 数 有 了 一 个 局 部 变量 c 一 样 ! 事实 上 确实 如 
此 ， 在 CPython 的 实现 中 ， 只 要 出 现 了 赋值 语句 〈 或 者 称 为 名 字 绑 
定 ) ， 那 么 这 个 名 字 就 被 当 作 局 部 变量 来 对 待 。 所 以 在 这 里 如 果 需 要 
改变 全 局 变量 c 的 值 ， 束 需要 使 用 global 关 键 字 。 


>>> def bar(): 


global c 
c= 'america' 
print c 

>>> bar() 


america 
>>> print c 
america 


如 在 Python 闭 包 中 ， 有 这 样 的 问题 : 


>>> def foo(): 
i a = 工 
def bar(): 
b=a*2 


i 
return bar 


>>> foo()() 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "<stdin>", line 4, in bar 
UnboundLocalError: local variable 'a' referenced before assignment 


从 上 例 中 可 以 看 出 ， 在 闭 包 barO0) 中 ， 在 编译 代码 为 字 节 码 时 ， 
为 存在 a=b+1 这 条 语句 ， 所 以 a 被 当 作 了 局 部 变量 看 得 ， 而 执行 时 因为 
b=a*2 先 执行 ， 此 时 局 部 变量 a 尚 不 存在 ， 所 以 产生 了 一 个 
UnboundLocalError。 在 Python2.x 中 可 以 使 用 global 关 键 字 解决 部 分 问 
题 ， 先 把 a 创建 为 一 个 模块 全 局 变量 ， 然 后 在 所 有 读 写 (包括 只 是 访 
问 ) 该 变量 的 作用 域 中 都 要 先 使 用 global 声 明 其 为 全 局 变量 。 


>>> a = 1 
>>> def foo(x): 
hE global a 

a=a*x 

def bar(): 
global a 
b=a*2 
a=b+1 
print a 

return bar 


>>> foo(1)() 
3 


这 种 方案 抛 开 编程 语言 并 不 提倡 全 局 变量 不 谈 ， 有 的 时 候 还 影响 
业务 逻辑 。 此 外 ， 还 有 把 a 作为 容器 的 一 个 元 素来 对 待 的 方案 ， 但 也 都 
相当 复杂 。 真 正 的 解决 方案 是 Python3 引 入 的 nonlocal 关 键 字 ， 通 过 它 
能 够 解决 这 方面 的 问题 。 


>>> def foo(x): 


a = x 

def bar(): 
nonlocal a 
b=a*2 
a=b+1 
print(a) 


return bar 


>>> bar1 = foo(1) 


建议 57: 为 什么 需要 self 参 数 


self 想 必 大 家 都 不 陌生 ， 在 类 中 当 定 义 实例 方法 的 时 候 需 要 将 第 一 
个 参数 显 式 声明 为 self， 而 调用 的 时 候 并 不 需要 传 入 该 参数 。 我 们 可 以 
使 用 self.x 来 访问 实例 变量 ， 也 可 以 在 类 中 使 用 self.m0) 来 访问 实例 方 
法 。self 的 使 用 示例 如 下 : 


class SelfTest(object): 
__init (self, name ) : 
self.name = name 
def showself(self): 
rint "self here is%s"%self 
def Wt A 
elf. showself() 
print ("The name is:",self.name) 
st = SelfTest(" ee Cace self") 
St ， displa y() 
print "%X"%(id(st)) 


上 例 中 我 们 使 用 self.name 来 表示 实例 变量 name， 在 display 方 法 中 
使 用 self.showself() 来 调用 实例 方法 showself()， 并 且 调 用 的 时 候 没 有 显 
式 传 入 self 参 数 。 程 序 输出 如 下 : 


self here is< main .SelfTest object at 0X00D67C10> 
('The name is:', 'instance self') 
D67C10 


从 上 述 输 出 中 可 以 看 出 ，self 表 示 的 就 是 实例 对 象 本 号 ， 即 
SelfTest 类 的 对 象 在 内 存 中 的 地 址 。self 是 对 对 象 st 本 和 号 的 引用 。 我 们 在 
调用 实例 方法 的 时 候 也 可 以 直接 传 入 实例 对 象 ， 如: 
SelfTest.display(st)。 其实 self 本 身 并 不 是 Python 的 关键 字 (dls 也 不 

是 ) ， 可 以 将 self 蔡 换 成 任何 你 喜欢 的 名 称 ， 如 this、obj 等 ， 实 际 效 果 
和 self 是 一 样 的 〈 并 不 推荐 这 样 做 ， 使 用 self 更 符合 约定 俗 成 的 原 
出) 


也 许 很 多 人 感受 self 最 奇怪 的 地 方 就 是 :在 方法 声明 的 时 候 需 要 害 
义 self 作 为 第 一 个 参数 ， 而 调用 方法 的 时 候 却 不 用 传 入 这 个 参数 。 虽 然 
这 并 不 影响 语言 本 映 的 使 用 ， 而 且 也 很 容易 遵循 这 个 规则 ， 但 多 多 少 
少 会 在 心里 问 一 问 ， 既然 这 样 ， 为 什么 必须 在 定义 方法 的 时 候 声明 self 
参数 呢 ? 去掉 第 一 个 参数 self 不 古 更 简洁 吗 ? 束 如 C++ 中 的 this 指 针 一 
样 。 我 们 来 简单 探讨 一 下 为 什么 需要 self 。 


1) Python 在 当初 设计 的 时 候 借鉴 了 其 他 语言 的 一 些 特 征 ， 如 
Moudla-3 中 方法 会 显 式 地 在 参数 列表 中 传 入 self。Python 起 源 于 20 世 纪 
80 年 代 末 ， 那 个 时 候 的 很 多 语言 都 有 self， 如 Smalltalk、Modula-3 等 。 
Python 在 最 开始 设计 的 时 候 受 到 了 其 他 语言 的 影响 ， 因 此 借鉴 了 其 中 
的 一 些 理念 〈 注 : 即使 不 了 解 Smalltalk、Modula-3 也 没有 关系 ， 此 处 
只 是 为 了 说 明 当 初 在 设计 Python 时 借鉴 了 其 他 语言 的 一 些 特点 ) 。 下 
面 这 段 话 摘 目 Guido 1998 年 接受 的 一 个 访问 ， 他 上 自己 也 提 到 了 这 一 
全 


y 


Andrew :What other languages or systems have influenced Python's 


design? (在 Python 的 设计 过 程 中 受到 了 哪些 语言 或 者 系统 的 影响 ? ) 


Guido :There have been many.ABC was a major influence,of 
course,since I had been working on it at CWI.It inspired the use of 
indentation to delimit blocks,which are the high-level types and parts of 
object implementation.['d spent a summer at DEC's Systems Research 
Center,where I was introduced to Modula-2+;the Modula-3final report was 
being written there at about the same time. What I learned there showed up 
in Python's exception handling,modules,and the fact that methods explicitly 
contain “self” in their parameter list. String slicing came from Algol-68 and 
Icon，( 有 很 多 ， 当 然 ， ABC 影 响 最 大 ， 因 为 在 CWI 的 时 候 我 一 直 在 剑 
究 它 。 它 局 发 了 我 使 用 缩 进 来 分 块 ， 这 些 是 高 级 的 类 型 以 及 部 分 对 象 


的 实现 。 我 在 DEC 的 系统 研究 中 心 花 费 了 一 个 暑假 的 时 间 ， 在 那里 我 
学 到 了 Modula-2+。 而 Modula-3 也 是 在 同一 时 期 在 那里 被 实现 的 。 我 在 
那里 学 到 的 ， 在 Python 的 异常 处 理 、 模 块 以 及 方法 的 参数 列表 中 显 式 
包含 self 中 都 有 体现 ， 而 字符 串 的 分 隔 则 是 从 Algol-68 和 Icon 中 借鉴 

时 。) 


2) Python 语言 本 身 的 动态 性 决定 了 使 用 self 能 够 带 来 一 定 便利 。 
下 例 中 len 表 示 求 点 到 原点 距离 的 画 数 ， 现 在 有 表示 直角 三 角形 的 类 
Rtriangle， 我 们 发 现 求 第 三 边 边 长 和 len 所 实现 的 功能 其 实 是 一 样 的 ， 
所 以 打算 直接 重用 该 方法 。 由 于 self 在 函数 调用 中 是 隐 式 传递 的 ， 因 此 
当 直 接 调 用 全 局 函数 len0 时 传 入 的 是 point 对 象 ， 而 当 在 类 中 调用 该 方 
法 时 ， 传 入 的 是 类 所 对 应 的 对 象 ， 使 用 self 可 以 在 调用 的 时 候 决 定 应 该 
传 入 哪 一 个 对 象 。 


>>> def len(point): 
a return math,.sqrt(point.x ** 2 + point.y ** 2) 


>>> class RTriangle(object): 

def _ init (self,right angle sidexX,right_angle_sideyY): 
self,.right_angle_ sideX = right_angle sidexXx 
self,.right_angle_sideY = right_angle sideY 


>>> RTriangle.len = len 
>>> rt = RTriangle(3,4) 
>>> rt.len() 

5.0 

>>> 


Python 属于 一 级 对 象 语言 (first class object) ， 如 果 m 是 类 A 的 一 
个 方法 ， 有 好 几 种 方式 都 可 以 引用 该 方法 ， 如 下 例 所 示 : 


>>> class A: 
Rs: def m(self,value): 
pass 


>>> A._dict _['m'] 
<function m at Ox00D617BO> 
>>> A.m.__func 

<function m at Ox00D617BO> 


实例 方法 是 作用 于 对 象 的， 如 采用 户 使 用 上 述 两 种 形式 来 调用 方 
法 ， 最 简单 的 方式 就 是 将 对 象 本 吴 传 递 到 该 方法 中 去 ，self 的 存在 保证 
了 A._dict_['m'] (a,2) 的 使 用 和 a.(2) 一 致 。 同 时 当 子 类 覆盖 了 父 类 中 
的 方法 但 仍然 想 调用 该 父 类 的 方法 的 时 候 ， 可 以 方便 地 使 用 
baseclass.methodname ( self, <argument list> ) 或 super ( childclass, self ) 
.methodname ( < argument list > ) 来 实现 。 


3) 在 存在 同名 的 局 部 变量 以 及 实例 变量 的 情况 下 使 用 self 使 得 实 
例 变量 更 容易 被 区 分 。 


Value = 'default global'’ 
class Test(object): 
def _ init (self,pari1): 
Value = par1+"------ 邮 
self.value = Value 
def show(self): 
print self.value 
print value 
a = Test("instance") 
Show( ) 


上 述 程 序 中 第 一 个 value 为 全 局 变量 ， 第 二 个 为 局 部 变量 ， 仅 仅 在 
方法 中 可 见 ， 而 类 同时 定义 了 一 个 实例 变量 value。 如 有 果 没 有 self， 我 
们 很 难 区 分 到 抵 哪 个 表示 局 部 变量 ， 哪 个 表示 实例 变量 ， 有 了 self 这 一 
l= 


其 实 关 于 要 不 要 self 或 者 要 不 要 将 self 作 为 关键 字 一 直 是 一 个 很 有 
争议 的 问题 ， 也 有 人 所 了 一 些 修 正 建 议 。 但 Guido 认 为 ， 基 于 Python 目 
前 的 一 些 特性 《如 类 中 动态 添加 方法 ， 在 类 风格 的 装饰 器 中 没有 self 无 
法 确认 是 返回 一 个 静态 方法 还 是 类 方法 等 ) 保留 其 原 有 设计 是 个 更 好 
的 选择 ， 更 何况 Python 的 哲学 是 : 显 式 优 于 隐 式 (Explicit is better than 
implicit.) 。 个 人 体会 是 除了 在 定义 的 时 候 多 输入 几 个 字符 外 ，self 的 
存在 并 不 会 给 用 户 融 来 太 多 困扰 ， 我 们 没有 必要 过 分 纠结 于 它 是 否 应 
该 存在 这 个 问题 。 


建议 58: 理解 MRO 与 多 继承 


跟 其 他 编程 语言 一 样 ，Python 也 支持 多 继承 。 多 继承 的 语法 非常 
简单 。 


class DerivedCclassName(Base1，Base2，Base3 ) 


谈 到 多 继承 ,我们 来 讨论 一 下 图 6-3 所 示 的 菱形 继承 的 经 典 问题 。 


| +getvalue() 


| +show0 


Cc 
B 


t+getvalue() 
Hgetvalue() 0 0 


图 6-3 ”多 继承 UML 示 意图 


假设 有 图 6-3 所 示 继 承 关 系 ， 当 用 古典 类 实现 的 时 候 ， 如 果 有 实例 
d=D()， 当 调用 d.getvalueO 和 d.show() 方 法 的 时 候 分 别 对 应 哪个 父 类 中 
的 方法 ? 当 改 为 新 式 类 来 实现 时 ， 结 果 又 将 是 怎样 的 呢 ? 我 们 来 看 具 
体 实现 : 


class A(): 
def getvalue(self): 
print "return value of A" 
def show(self): 
print "I can Show the information of A" 
class B(A): 
def getvalue(self): 
print "return value of B" 
class C(A): 
def getvalue(self): 
print "return value of C" 
def show(self): 
print "I can show the information of C" 
class D(B,C):pass 


当 用 古典 类 实现 的 时 候 我 们 会 发 现 ， 分 别 调用 的 是 B 类 的 
getvalue() 方 法 和 A 类 中 的 show0) 方 法 ， 而 当 改 为 新 式 类 实现 (请 读者 
自行 验证 ) 的 时 候 ， 结 果 却 变 为 调用 BB 类 的 getvalue0) 方 法 和 C 类 的 
show() 方 法 。 从 两 种 不 同 实现 方式 的 输出 上 也 可 以 证 实 这 一 点 。 


古典 类 输出 如 下 : 


return value of B 
I can show the information of A 


新 式 类 输出 如 下 : 


return value of B 
I can show the information of C 


为 什么 两 种 情况 下 输出 结果 会 有 所 不 同 呢 ? 这 背后 到 讨 发 生 了 什 
么 ? 根本 原因 在 哪里 ? 实际 上 ， 导 致 这 些 不 同 点 的 根本 原因 在 于 古典 


类 和 新 式 类 之 间 所 采取 的 MRO (Method Resolution Order， 方 法 解析 
顺序 ) 的 实现 方式 存在 差异 。 


在 古典 类 中 ，MRO 搜 索 采 用 人 稍 单 的 目 左 至 右 的 深度 优先 方 法 ， 即 
按照 多 继承 申明 的 顺序 形成 继承 树 结 构 ， 目 项 向 下 采用 深度 优先 的 搜 
索 顺 序 ， 当 找到 所 需要 的 属性 或 者 方法 的 时 候 吏 停止 搜索 。 因 此 如 
6-3 所 示 ， 当 调用 d.getvalue() 的 时 候 ， 其 搜索 顺序 为 D->B， 所 以 调用 的 
征 B 类 中 对 应 的 方法 。 而 d.show0 的 搜索 顺序 为 D->B->A， 因 此 最 后 调 
用 的 是 A 类 中 对 应 的 方法 。 


而 新 式 类 采用 的 是 C3 MRO 搜 索 方 法 ， 该 算法 描述 如 下 : 


假定 ，C1C2...CN 表 示 类 C1 到 CN 的 序列 ， 其 中 序列 头 部 元 素 
(head)=C1， 序 列 尾部 (tai) 定 义 为 =C2..CN; 


C 继 承 的 基 类 目 左 向 右 分 别 表示 为 Bl1，B2...BN:; 


L[C] 表 示 C 的 线性 继承 关系， 其 中 L[object]=object 。 


算法 具体 过 程 如 下 : 


L[C(B1 ... BN)] = C + merge(L[B1] ... L[BN], Bi ... BN) 


其 中 merge 方 法 的 计算 规则 如 下 : 在 L[B1]...L[BN],B1...BN 中 ， 取 
L[B1] 的 head， 如 果 该 元 素 不 在 L[B2]...L[BN],B1...BN 的 尾部 序列 中 ， 
则 添加 该 元 素 到 C 的 线性 继承 序列 中 ， 同 时 将 该 元 素 从 所 有 列表 中 删 
除 《该 头 元 素 也 叫 good head) ， 和 否则 取 L[B2] 的 head。 继 续 相 同 的 判 
呆 ， 直 到 整个 列表 为 空 或 者 没有 办 法 找到 任何 符合 要 求 的 头 元 素 (此 
时 将 引发 一 个 异常 ) 。 


我 们 结合 上 面 的 例子 来 说 明 C3 MRO 算 法 的 具体 计算 方法 ， 以 新 
式 类 实现 的 上 述 萎 形 继承 关系 如 图 6-4 所 示 。 


根据 算法 规则 有 如 下 关系 表达 式 : 


L(0)=0 
; L(A)=AO 


则 : 


L(B)=B+merge(L(A) )=B+merge(AO)=B+A+merge(0,0)=B,A, 0 
L(C)=C+merge(L(A))=C+merge(AO0)=C+A+merge(0,o0)=C,A,0 
L(D)=D+merge(L(B),L(C),BC) 

=D+merge(BAO, CAO, BC) 

=D+B+merge(AO,CAO,C)( 
a 


CA 

的 尾 种 ”因此 不 满 下 条 件 ， 
跳 到 下 一 个 元 素 CAO 

继续 计算 ) 
=D+B+C+merge(AO,AO) 
=D+B+C+A+0 =DBCAO 


此 对 于 上 述 例子 ， 当 DD 的 实例 d 调 用 getvalue() 和 show0 方 法 时 按 
照 D->B->C->A->O 的 顺序 进行 搜索 ， 在 第 一 个 找 个 该 方法 的 位 置 停止 
搜索 并 调用 该 类 对 应 的 方法 ， 因 此 getvalue0 会 在 B 的 类 中 找到 对 应 的 
方法 ， 而 show 会 在 CO 类 中 找到 对 应 的 方法 。 


天 于 MRO 的 搜索 顺序 我 们 也 可 以 在 新 式 类 中 通过 查看 _mro ”局 
性 得 到 证 实 。D. mro_ 的 输出 如 下 : 


(<class' main .D'>,<class' main _.B'>,<class' main _.C'>,<class' mai 
n__.A'>,<type'object'>) 


实际 上 MRO 虽 然 叫 方法 解析 顺序 ， 但 它 不 仅 是 针对 方法 搜索 ， 对 
于 类 中 的 数据 属性 也 适用 。 读 者 可 以 目 行 验证 。 


根据 C3 MRO 算 法 的 摘 述 ， 如 采 找 不 到 满足 条 件 的 good head， 则 
会 据 痉 该 元 素 从 而 对 下 一 个 元 素 进行 查找 。 但 如 果 找 再 了 所 有 的 元 素 
都 找 不 到 符合 条 件 的 good head 会 二 么 样 呢 ? 来 看 一 个 具体 例子 。 


Class A(object): pass 
Class B(object): pass 
class C(A, B): pass 
(QD 基 类 顺序 为 A 

，B 
Class D(B, A): pass 
@) 基 类 顺序 为 B 


,A 
class E(C, D): pass 
运行 程序 我 们 会 发 现 这 种 情况 下 有 异常 扫 出 。 


TypeError: Error when calling the metaclass bases 
Cannot create a consistent method resolution 
order (MRO) for bases B, A 


根据 上 述 代 码 的 继承 关系 图 (请 读者 自行 画 出 ) 和 MRO 算 法 可 以 
得 出 : 


L(E)=E+merge(L(C),L(D),cD) 
=E+merge(CABO, CBAO, CD ) 
=E+C+merge(ABO, BAO,D) 
=E+C+D+merge(ABO+BAO) 


当 算 法 进行 到 最 后 一 步 的 时 候 便 再 也 找 不 到 满足 条 件 的 head 了 ， 
因为 当选 择 ABO 的 头 A 元 聚 的 时 候 ， 发 现 其 包含 在 BAO 的 尾部 AO 中 ; 
同 理 ，B 包 含 在 BO 中 ， 此 时 便 形成 了 一 个 死 鳞 ，Python 解 释 器 此 时 不 
知道 如 何 处 理 这 种 情况 ， 便 直接 抛 出 异 第 ， 这 整 是 上 述 例子 有 异 凋 抛 
出 的 原因 。 


委 形 继承 是 我 们 在 多 继承 设计 的 时 候 需要 尽量 避免 的 一 个 问题 。 


建议 59: 理解 持 述 符 机 制 


除了 在 不 同 的 局 部 变量 、 全 局 变量 中 查找 名 字 ， 还 有 一 个 相似 的 
场景 不 可 不 察 ， 那 整 是 查找 对 象 的 属性 。 在 Python 中 ， 一 切 害 是 对 
象 ， 所 以 类 也 是 对 象 ， 类 的 实例 也 是 对 象 。 


>>> class MyClass(object): 
Pe class_attr = 


>>> MyClass._ dict _ 


dict_ proxy({'_ dict ': <attribute '_ dict ' of 'MyClass' objects>, ' 
_ module ': ' main ', ' weakref ': <attribute ' weakref __' 
of 'MyClass' objects>, '_ doc _ Non "class attr': 1}) 


每 一 个 类 都 有 一 个 _dict_ 属 性， 其 中 包含 的 是 它 的 所 有 属性 ， 又 
称 为 类 属性 。 留 意 类 属性 的 最 后 一 个 元 素 ， 可 以 看 到 我 们 代码 中 定义 
的 属性 在 其 中 的 体现 。 


>>> my_instance = MyClass() 
>>> my_instance._ dict _ 


除了 与 类 相关 的 类 属性 之 外 ， 每 一 个 实例 也 有 相应 的 属性 表 
(_dict ) ， 称 为 实例 属性 。 当 我 们 通过 实例 访问 一 个 属性 时 ， 它 首 
先 会 等 试 在 实例 属性 中 查找 ， 如 采 找 不 到 ， 则 会 到 类 属性 中 查找 。 


>>> my_instance. class _attr 
1 


可 以 看 到 实例 my_instance 可 以 访问 类 属性 class_attr。 但 与 读 操 作 
有 所 不 同 ， 如 果 通 过 实例 增加 一 个 属性 ， 只 能 改变 此 实例 的 属性 ， 对 
类 属性 而 言 ， 并 没有 丝毫 变化 。 这 从 下 面 的 代码 中 可 以 得 到 印证 。 


>>> my_instance.inst_attr = 'china' 
>>> my_instance._ dict _ 


{'inst_attr': 'china'} 

>>> MyClass._ dict _ 

dict_ proxy({'_ dict ': <attribute '_dict ' of 'MyClass' objects>, ' 
_ module ': ' main ', ' weakref ': <attribute ' weakref_ _' 
of 'MyClass' objects>, '_ doc ': None, ' class _attr': 1}) 


那么 ， 能 不 能 给 类 增加 一 个 属性 呢 ? 答案 是 ， 能 ， 也 不 能 。 说 
能 ， 是 因为 每 一 个 class 也 是 一 个 对 象 ， 动 态 地 增 减 对 象 的 属性 与 方法 
正 古 Python 这 种 动态 语言 的 特性 ， 目 然 古 文 持 的 。 


>>> MyClass.class attr2 = 100 
>>> my_instance.class attr2 
100 


说 不 能 ， 古 因为 在 Python 中 ， 内 置 类 型 和 用 户 定 义 的 类 型 是 有 分 
别 的 ， 内 置 类 型 并 不 能 够 随意 地 为 它 增加 属性 或 方法 。 


>>> str.new attr = 1 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: can't set attributes of built-in/extension type 'str' 
>>> setattr(str, 'new attr', 1) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: can't set attributes of built-in/extension type 'str' 


至 此 ， 我 们 应 当 理 解 了 ， 当 我 们 通过 “.” 操 作 符 访 问 一 个 属性 时 ， 
如 果 访 问 的 是 实例 属性 ， 与 直接 通过 _dict “属性 获取 相应 的 元 素 是 一 
样 的 ， 而 如 果 访 问 的 是 类 属性 ， 则 并 不 相同 : “.” 铝 作 符 封 冯 了 对 两 种 
不 同属 性 进行 查找 的 细 订 。 


>>> my_instance. dict _['inst_attr'] 
'china' 
>>> my_instance. dict ['class attr2'] 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
KeyError: 'class_ attr2" 


不 过 ， 这 里 要 讲 的 并 不 止 于 此 ,“.” 操 作 符 封装 了 对 实例 属性 和 类 
属性 碍 找 的 细 和 ， 只 讲 了 一 半 事 实 ， 还 有 一 部 分 隐 而 未 谈 ， 那 就 是 摘 
述 符 机 制 。 


>>> MyClass._ dict _['inst_attr'] 
'china' 

>>> MyClass.inst_attr 

'china' 


我 们 已 经 知道 访问 类 属性 时 ， 通 过 _ dict_ 访问 和 使 用 “.” 操 作 符 
访问 是 一 样 的 ， 但 如 果 是 方法 ， 却 又 不 是 如 此 了 。 


>>> class MyClass(object ) : 
def my_ method( self ): 
print "my_method ' 


>>> MyClass. dict ['my_method'] 
<function my_method at Ox102773aa0> 


>>> MyClass.my_method 
<unbound method MyClass.my_method> 


甚至 它们 的 类 型 都 不 一 样 ! 


>>> type(MyClass ,my_method ) 

<type "Instancemethod ' > 

>>> type(MyClass, dict ['my_method']) 
<type 'function'> 


这 其 中 作怪 的 台 是 描述 符 了 。 当 通过 “.” 操 作 符 访问 时 ，Python 的 
名 字 查 找 并 不 是 之 前 说 的 先 在 实例 属性 中 查找 ， 然 后 再 在 类 属性 中 碍 
找 那 么 简单 ， 实 际 上 ， 根 据 通过 实例 访问 属性 和 根据 类 访问 属性 的 不 
同 ， 有 以 下 两 种 情况 : 


一 种 是 通过 实例 访问 ， 比 如 代码 obj.x， 如 果 x 是 一 个 摘 述 符 ， 那 么 
__getattribute _ 0 会 运 回 type(obj)._ dict_['x']. get (obj,type(obj)) 结 
果 ， 即 : type(obj) 获 取 obj 的 类 型 ，type(obj)._ dict [x] 返回 的 是 一 个 


描述 符 ， 这 里 有 一 个 试探 和 判断 的 过 程 ; 最 后 调用 这 个 描述 符 的 
_ get 0 方法 。 


另 一 种 是 通过 类 访问 的 情况 ， 比 如 代码 cls.x， 则 会 被 
__getattribute _() 转 换 为 cls._dict_['x']. get (None,cls)° 


至 此 ， 束 能 够 明白 MyClass._dict_['my_method'] 返 回 的 是 function 
而 不 是 instancemethod 了 ， 原 因 是 没有 调用 它 的 _get 0 方法。 是 否 如 
此 呢 ? 怎么 验证 一 下 ? 我 们 可 以 尝试 手动 调用 _get。 0。 


>>> t = Tf, get (None，MyClass) 
>>> t 

<unbound method MyClass.my_method> 
>>> type(t) 

<type 'instancemethod'> 


看 ， 果 然 是 这 样 ! 这 是 因为 描述 符 协 议 是 一 个 Duck Typing 的 协 
议 ， 而 每 一 个 画 数 都 有 __get_ 方 法 ， 也 就 是 说 其 他 每 一 个 画 数 都 是 撒 


描述 符 机 制 有 什么 作用 呢 ? 其 实 它 的 作用 编写 一 般 程 序 的 话 还 
用 不 上 ， 但 对 于 编写 程序 库 的 读者 来 说 ， 束 非 第 有 用 了 。 比 如 大 家 
悉 的 已 绑 定 方法 和 未 绑 定 方法 ， 它 是 怎么 来 的 呢 ? 


真 


>>> MyClass.my_method 

<unbound method MyClass .my_method> 

>>> a = MyClass() 

>>> a.my_method 

<bound method MyClass.my_method of <_ main__.MyClass object at Ox10277a490>> 


上 面 例子 输出 的 不 同 ， 其 实 来 和 目 于 对 描述 符 的 _get_0 的 调用 参 
数 的 不 同 ， 当 以 obj.x 的 形式 访问 时 ， 调 用 参数 是 
get (obj,type(obj)); 而 以 dls.x 的 形式 访问 上 时， 调用 参数 是 


get (None,type(obj))， 这 可 以 通过 未 绑 定 方法 的 im_self 属 性 为 None 
得 到 印证 。 


>>> print MyClass.my_method.im self 

None 

>>> a.my_method.im self 

<_main .MyClass object at Ox10277a490> 


除 此 之 外 ， 所 有 对 属性 、 方 法 进行 修饰 的 方案 往往 都 用 到 了 描述 
符 ， 比 如 classmethod、staticmethod 和 和 property 等 。 在 这 里 ， 给 出 
property 的 参考 实现 作为 本 和 的 结束 ， 更 深入 的 应 用 可 以 进一步 参考 
Python 源码 中 的 其 他 用 法 。 


Class Property(object ) : 
"Emulate PyProperty_Type() in Objects/descrobject.c" 
def _ init (self, fget=None, fset=None, fdel=None, doc=None ) : 
self.fget = fget 


self.fset = fset 
self.fdel = fdel 
Self. doc = doc 


def _ get (self, obj, objtype=None): 
If obj is None: 
return self 
If self.fget is None: 
raise AttributeError, "unreadable attribute" 
return self.fget(obj) 
def _ set (self, obj, value): 
If self.fset is None: 
raise AttributeError, "can't set attribute" 
self.fset(obj, value) 
def _ delete (self, obj): 
If self.fdel is None: 
raise AttributeError, "can't delete attribute" 
self.fdel(obj) 


建议 60: 区 别 _ getattr 0 和 
getattribute _ (0 〇 方法 


getattr () 和 getattribute (都 可 以 用 做 实例 属性 的 获取 和 拦截 
(注意 ， 仅 对 实例 属性 (instance variable) 有 效 ， 非 类 属性 ) ， 
__getattr _() 适 用 于 未 定义 的 属性 ， 即 该 属性 在 实例 中 以 及 对 应 的 类 的 
基 类 以 及 祖先 类 中 都 不 存在 ， 而 getattribute 0) 对 于 所 有 属性 的 访问 
都 会 调用 该 方法 。 它 们 的 函数 签名 分 别 为 : 


getattr : _ getattr__(self,name) 
_getattribute : _ getattribute (self,name) 


其 中 参数 name 为 属性 的 名 称 。 需 要 注意 的 是 getattribute _0 仅 应 
用 于 新 式 类 。 


既然 这 两 种 方法 都 用 作 属 性 的 访问 ， 那 么 它们 有 什么 区 别 呢 ? 我 
们 来 看 一 个 例子 。 


class A(object ) : 
def _ init (self,name): 
self.name = name 
a = A("attribute") 
print a.name 
print a.test 


上 面 的 程序 输出 如 下 : 


attribute 
Traceback (most recent call last): 
File "test.py", line 7, in <module> 
print a.test 
AttributeError: 'A' object has no attribute 'test' 


当 访 问 一 个 不 存在 的 实例 属性 的 时 候 丈 会 抛 出 AttributeError 寞 
常 。 这 个 异常 是 由 内 部 方法 ”getattribute _(self,name) 抛 出 的 ， 因 为 
getattribute _() 会 被 无 条 件 调用 ， 也 就 是 说 只 要 涉及 实例 属性 的 访问 
就 会 调用 该 方法 ， 它 要 么 返回 实际 的 值 ， 和 要么 抛 出 异常 。Python 的 文 
档 http://docs.python.org/2/reference/datamodel.html#object.getattribute 中 
也 提 到 了 这 一 点 。 那 么 _getattr_(0) 会 在 什么 情况 下 调用 呢 ? 我 们 在 上 
面 的 例子 中 添加 __getattr_ 0 方法 试 试 。 


def _ getattr__(self,name): 
print ("calling _ getattr_ _:",name) 


再 次 运行 程序 会 发 现 输出 为 : 


attribute 
('calling _ getattr :', 'test') 
None 


这 次 程序 没有 抛 出 异常 ， 而 是 调用 了 __getattr_() 方 法 。 实 际 上 
_getattr _() 方 法 仅 如 下 情况 下 才 被 调用 ， 属性 不 在 实例 的 _ dict_ 中; 
属性 不 在 其 基 类 以 及 祖先 类 的 _ dict_ 中; 触发 AttributeError 异 常 时 

(注意 ， 不 仅仅 是 ”getattribute _ O03 引发 的 AttributeError 异 常 ，property 
中 定义 的 get0 方 法 抛 出 异常 的 时 候 也 会 调用 该 方法 ) 。 需 要 特别 注意 
的 是 当 这 两 个 方法 同时 被 定义 的 时 候 ， 要 么 在 _ getattribute_(0 中 显 式 
调用 ， 要 么 触发 AttributeError 异 常 ， 否 则 getattr _() 永 远 不 会 被 调 
用 。 getattribute_(0) 及 _ getattr__() 方 法 都 是 Object 类 中 定义 的 默认 方 
法 ， 当 用 户 需 要 窗 盖 这 些 方法 时 有 以 下 几 点 注意 事项 : 


1) 避免 无 穷 递 归 。 当 在 上 述 例子 中 添加 __getattribute_ 0 方法 后 
程序 运行 会 抛 出 RuntimeError 异 常 提 示 “RuntimeError:maximum 


recursion depth exceeded.”° 


def _ getattribute (self, attr): 
try: 
return self.,_ dict [attr] 
except KeyError: 
return 'default' 


这 是 因为 属性 的 访问 调用 的 是 覆盖 了 的 getattribute _() 方 法 ， 而 
该 方法 中 self，_dict_[attr] 又 要 调用 __getattribute_(selfatt) ， 于 是 产生 
了 无 穷 递 归 ， 即 使 将 语句 self.， dict _[attr] 替 换 为 
self. getattribute (self,attr) 和 getattr(self,attr) 也 不 能 解决 问题 。 正 确 的 
做 法 是 使 用 super(obj,self). getattribute (attr)， 因 此 上 面 的 例子 可 以 
改 为 :super(A,self). getattribute (attr) 或 者 
object. getattribute (self,attr)。 无 穷 递 归 是 窗 新 ”getatt (和 
getattribute _() 方 法 的 时 候 需 要 特别 小 心 。 


2) 访问 未 定义 的 属性 。 如 果 在 _getattr0 方法 中 不 抛 出 
AttributeError 异 常 或 者 显 式 返回 一 个 值 ， 则 会 返回 None， 此 时 可 能 会 
影响 到 程序 的 实际 运行 预期 。 我 们 来 看 一 个 示例 : 


Class A(object ) : 
def _ init (self,name): 
self.name = name 
self.x = 20 
def _ getattr__(self,name): 
print ("calling _ getattr _:",name) 
if name == 'z': 
return self.x ** 2 
elif name == 'y': 
return self.x ** 3 
def _ getattribute (self, attr): 
try: 
return super(A,self). getattribute (attr) 
except KeyError: 
return 'default' 
a = A("attribute") 
print a.name 
print a.z 
If hasattr(a,'t'): 
c= a.t 
print c 
else: 
print "instance a has no attribute t" 


用 户 本 来 的 意图 是 : 如 采 {t 不 属于 实例 属性 ， 则 打印 出 警告 信息 ， 
否则 给 c 赋 值 。 按 照 用 户 的 理解 本 来 应 该 是 输出 警告 信息 的 ， 可 是 实际 
却 输出 None。 这 是 因为 在 __getattr_() 方 法 中 没有 抛 出 任何 异常 也 没有 
显 式 返回 一 个 值 ，None 被 作为 默认 值 返 回 并 动态 添加 了 属性 (， 因 此 
hasattr(object,name) 的 返回 结果 是 True。 如 果 我 们 在 上 述 例子 中 抛 出 异 
常 (raise TypeError(unknown attr:' + name)) ， 则 一 切 将 如 用 户 期 竺 的 
那样 。 


另外 关于 __getattr_(0 和 __getattribute_0 有 以 下 两 点 提醒 : 


1) 覆盖 了 _ getattribute _() 方 法 之 后 ， 任 何 属性 的 访问 都 会 调用 
用 户 定义 的 _ getattribute_ (0) 方法， 性 能 上 会 有 所 损耗 ， 比 使 用 默认 的 
方法 要 慢 。 

2) 和 鹤 盖 的 ”getattr_0 〇 方法 如 果 能 够 动态 处 理事 先 未 定义 的 属 
性 ， 可 以 更 好 地 实现 数据 隐藏 。 因 为 dir0 通 党 只 显示 正常 的 属性 和 方 
法 ， 因 此 不 会 将 该 属性 列 为 可 用 属性 ， 上 述 例子 中 如 果 动 态 添 加 属性 
y， 即 使 hasattr(ay) 的 值 为 True，dir(a) 得 到 的 却 是 如 下 输出 : 


['_ class ','_ delattr ','_ dict ','_ doc ','_ format ','_ getattr_ _', 


'_ getattribute ','_hash _','_ init ','_ module ','_ new ','__reduce 
','_ reduce ex ','_ repr  '，' setattr ','_ sizeof ',' str ','__subc 
lasshook ', '_ weakref ', 'name', 'x'] 


再 来 思考 一 个 问题 : 我 们 知道 property 也 能 控制 属性 的 访问 ， 如 果 
一 个 类 中 同时 定义 了 property、__getattribute _0 以 及 __getattr_(0) 来 对 
属性 进行 访问 控制 ， 那 么 具体 的 查找 顺序 是 怎样 的 呢 ? 


Class A(object ) : 
_c ='"tes nn 
def _ init__(self): 
self.x = None 
@property 
def al(self): 
print "using property to access attribute" 
e: 


if self.x is Non 


print "return value" 


return 'a' 
else: 
print "error occured" 
raise AttributeError 
Q@a.setter 


def a(self,value): 
self.x = value 
def _ getattr_ (self, nanme): 
print "using __getattr__ to access attribute" 
print('attribute name: ', name) 
return "b" 
def _ getattribute (self, name): 
print "using _ getattribute _ to access attribute" 
return object._ getattribute__(self,name) 
al = A() 
print ai.a 
print "------------------ 
al1.a = 工 
print ai.a 
print "------------------ " 
print A._c 


上 述 程 序 的 输出 如 下 : 


using __getattribute _ to access attribute 
using property to access attribute 

Using __getattribute _ to access attribute 
return value 


using __getattribute _ to access attribute 
using property to access attribute 

Using __getattribute _ to access attribute 
error occured 

Using _ getattr__ to access attribute 
('attribute name: ', 'a') 

b 


当 实 例 化 a1 时 由 于 其 默认 的 属性 x 为 None， 当 我 们 访问 al.a 时 ， 最 
先 搜索 的 是 ”getattribute_() 方 法， 由 于 a 是 一 个 property 对 象 ， 并 不 存 
在 于 al 的 dict 中 ， 因 此 并 不 能 返回 该 方法 ， 此 时 会 搜索 property 中 定义 
的 get0 方 法 ， 所 以 返回 的 结果 是 a。 当 用 property 中 的 setO 方 法 对 x 进行 
修改 并 再 次 访问 property 的 get(0 方 法 时 会 抛 出 异常 ， 这 种 情况 下 会 触发 
对 ”getattr _() 方 法 的 调用 并 返回 结果 b。 程 序 最 后 访问 类 变量 输出 test 
是 为 了 说 明 对 类 变量 的 访问 不 会 涉及 ”getattribute”() 和 ”getattr_( 方 
二 二 


_ getattribute_() 总 会 被 调用 ， 而 __getattr_0 只 有 在 
getattribute _() 中 引发 异常 的 情况 下 才 会 被 调用 。 


建议 61: 使 用 更 为 安全 的 property 


property 是 用 来 实现 属性 可 管理 性 的 built-in 数 据 类 型 (注意 : 很 多 
地 方 将 property 称 为 钞 数 ， 我 个 人 认为 这 是 不 恰当 的 ， 它 实际 上 是 一 种 
实现 了 get ()、_ set 0 方法 的 类 ， 用 户 也 可 以 根据 自己 的 需要 定义 
个 性 化 的 property) ， 其 实质 是 一 种 特殊 的 数据 描述 符 (数据 描述 符 : 
如 果 一 个 对 象 同 时 定义 了 _get_ 0 和 _ set 0 方法 ， 则 称 为 数据 描述 
符 ， 如 果 仅 定义 了 __get_ 0 方法 ， 则 称 为 非 数据 描述 符 ) 。 它 和 普通 
描述 符 的 区 别 在 于 : 普通 摘 述 符 提 供 的 是 一 种 较为 低级 的 控制 属性 访 
问 的 机 制 ， 而 property 是 它 的 高 级 应 用 ， 它 以 标注 库 的 形式 提供 描述 符 
的 实现 ， 其 签名 形式 为 : 


property(fget=None, fset=None, fdel=None, doc=None) -> property attribute 


Property 和 常见 的 使 用 形式 有 以 下 几 种 。 
1) 第 一 种 形式 如 下 : 


class Some_Class(object): 
def _ init _(self): 
self. somevalue = 0 
def get_value(self): 
print "calling get method to return value" 
return self._somevalue 
def set_value(self, value): 
print "calling set method to set value" 
self._ somevalue = Value 
def del attr(self): 
print "calling delete method to delete value" 
del self._ somevalue 
x = property(get_ value, set value, del attr, "I'm the 'x' property.") 
obj = Some_Class() 
obj.x = 10 
print obj.x + 2 
del obj.x 
obj.x 


2) 第 二 种 形式 如 下 : 


class Some en 
x=No 
def 3 -一 (self) 
self. x = None 
doe 
def x(self): 
print "calling get method to return value" 
return self. x 
Q@x.setter 
def x(self,value): 
print "calling set method to set value" 
self. x = value 
Q@x.deleter 
def x(self): 
print "calling delete method to delete value" 
del self. x 


在 了 解 完 property 的 基本 知识 之 后 来 探讨 一 下 这 些 问题 ， property 到 | 
底 有 什么 优势 呢 ? 为 什么 要 有 这 个 特性 昵 ? property 的 优势 可 以 简单 地 
概括 为 以 下 几 点 : 


1) 代码 更 简洁 ， 可 读 性 更 强 。 这 条 优势 是 显而易见 的 ， 显 然 
obj.x+=1 比 obj.set_value(obj.get_valueO+1) 要 更 简洁 易 谈 ， 而 且 对 于 编程 
人 员 来 说 还 少 敲 了 几 次 键盘 。 


2) 更 好 的 管理 属性 的 访问 。property 将 对 属性 的 访问 直接 转换 为 
对 对 应 的 get、set 等 相关 函数 的 调用 ， 属 性 能 够 更 好 地 被 控制 和 管理 
常见 的 应 用 场景 如 设置 校 验 (如 检查 电子 邮件 地 址 是 否 合法 ) 、 检 测 
赋值 的 范围 〈 如 某 个 变量 的 赋值 范围 必须 在 0 到 10 之 间 ) 以 及 对 某 个 属 
性 进行 二 次 计算 之 后 再 返回 给 用 户 《如 将 RGB 形式 表示 的 颜色 转换 为 
#*****+* 形 式 返 回 给 用 户 ) 或 者 计算 某 个 依赖 于 其 他 属性 的 属性 。 来 看 
一 个 使 用 property 控 制 属 性 访问 的 例子 。 


#!/UsSr/bin/python 
# -*- Coding: utf-8 -*- 
class Date(object ) : 
def _ init (self,year,month,day): 
self.year = year 
self.month = month 
self.day = day 


def get_ date(self): 
return self.year+"-"+self.month+"-"+self.day 


def set_ date(self,date as_ string): 
year, month, day = date as_string.split('-') 
If not (2000 <= year <=2015 and 0 <= month <= 12 and 0 
<= day <= 31): 
print "year Should be in [2000:2015]" 
print "month should be in [0:12]" 
print "day should be in [0,31]" 
raise AssertionError 
self.year = year 
self.month = month 
self.day = day 
date =property(get_date, set_date) 


创建 一 个 property 实 际 上 就 古 将 其 属性 的 访问 与 特定 的 钞 数 关联 起 
来 ， 相 对 于 标准 属性 的 访问 ， 其 工作 原理 如 图 6-5 所 示 。property 的 作用 
相当 于 一 个 分 发 侨 ， 对 某 个 属性 的 访问 并 不 直接 操作 具体 的 对 象 ， 而 
对 标准 属性 的 访问 没有 中 间 这 一 层 ， 直 接 访问 存储 属性 的 对 象 。 


property 对 象 
property 
(tget,tset,fdel,doc) 实际 存储 属性 的 对 象 
ee ss 对 应 的 fget 函 数 
访问 某 个 属性 一 一 -| 
和 一 一 一 ~ 对 应 的 fSet 函 名 
给 属性 赋值 一 7 | 


图 6-5 ”property 的 工作 原理 


3) 代码 可 维护 性 更 好 。property 对 属性 进行 再 包装 ， 以 类 似 于 接 
口 的 形式 呈现 给 用 户 ， 以 统一 的 语法 来 访问 属性 ， 当 具体 实现 需要 改 
变 的 时 候 (如 改变 某 个 内 部 变量 ， 或 者 赋值 或 取 值 的 计算 发 生 改 
变 ) ， 访 问 的 方式 仍然 可 以 保留 一 致 。 例 如 上 述 例子 中 ， 如 果 要 更 改 


date 的 显示 方式 ， 如 “2012 年 4 月 20 日 ">， 则 只 需要 对 get_value0O 做 对 应 的 
修改 即 可 ， 外 部 程序 访问 date 的 方式 并 不 需要 改变 ， 因 此 代码 的 可 维护 


性 大 大 提高 。 


4) 控制 属性 访问 权限 ， 提 高 数据 安全 性 。 如 果 用 户 想 设置 某 个 属 
性 为 只 读 ， 我 们 来 看 看 使 用 property 如 何 满 足 这 个 需求 。 


class PropertyTest(object ) : 
def _ init (self): 
self. var1=20 
@property 
def x(self): 
return self. var1 
pt = PropertyTest() 


print pt.x 
pt .x=12 
上 上面 的 程序 输出 如 下 : 


20 

Traceback (most recent call last): 
File "tests.py", line 11, in <module> 
pt ,x=12 

AttributeError: can't set attribute 


在 前 面 的 代码 中 我 们 只 实现 了 get(0 方 法 ， 没 有 实现 set() 方 法 。 如 果 
使 用 第 一 种 形式 的 property， 也 只 需要 设置 x=property(get_value) 后 实现 
对 应 的 get(0) 方 法 即 可 。 


值得 注意 的 是 : 使 用 property 并 不 能 真正 完全 达到 属性 只 读 的 目 
的 ， 正 如 以 双 下 划 线 命令 的 变量 并 不 是 真正 的 私有 变量 一 样 ， 这 些 方 
法 只 是 在 直接 修改 属性 这 条 道路 上 增加 了 一 些 障 碍 。 如 果 用 户 想 访 问 
私有 属性 ， 同 样 能 够 实现 ， 如 上 例 便 可 以 使 用 


pt，PropertyTest_var1=30 来 修改 属性 。 那 么 究竟 怎样 才能 实现 真正 意 
义 上 的 只 读 和 私有 变量 呢 ? 本 下 最 后 会 探讨 这 个 问题 ， 这 里 请 读者 移 


思考 二 下 © 


我 们 在 本 节 开 头 提 到 property 本 质 并 不 是 函数 ， 而 是 特殊 类 ， 既 然 
是 类 的 话 ， 那 么 就 可 以 被 继承 ， 因 此 用 户 便 可 以 根据 自己 的 需要 定义 
property。 来 看 以 下 具体 实现 : 


def update meta (self, other): 
self. name = other. name _ 
Self, doc = other._ doc 
self._ dict .update(other._ dict ) 
return self 
class USserpProperty (property): 
def _ new__(cls, fget=None, fset=None, fdel=None, doc=None): 
if fget is not None: 
def _ get_ (obj, objtype=None, name=fget._ name  ): 
fget = getattr(obj, name) 
print "fget name:"+fget. name _ 
return fget() 
fget = update meta(_ get , fget) 
if fset is not None: 
def __set_ (obj, value, name=fset._ name ): 
fset = getattr(obj, name) 
print "fset name:"+fset. name _ 
print "setting value:" +str(value) 
return fset(value) 
fset = update meta(__ set , fset) 
if fdel is not None: 
def _ delete (obj, name=fdel. name ): 
fdel = getattr(obj, name) 
print "warning: you are deleting attribute 
using fdel. name __" 
return fdel() 
fdel = update meta(_ delete , fdel) 
return property(fget, fset, fdel, doc) 
class C(object ) : 
def get(self): 
print 'calling C.getx to get Value' 
return self. x 
def set(self, x): 
print 'calling C.setx to set value' 
self. x = x 
def delete(self): 
print 'calling C.delx to delete Value' 
del self. x 
x = UserProperty(get, set, delete) 


上 壕 例 子 中 UserProperty 继 承 目 property， 其 构造 罚 数 _new__(dls,， 
fget=None, fset=None, fdel=None, doc=None) 中 重新 定义 了 fgetO 、fset() 
以 及 fdel0 方 法 以 满足 用 户 特定 的 需要 ， 最 后 返回 的 对 象 实际 还 是 
property 的 实例 ， 因 此 用 户 能 够 像 使 用 property 一 样 使 用 UserProperty。 


回 到 前 面 的 问题 : 使 用 property 并 不 能 真正 完全 达到 属性 只 读 的 目 
的 ， 用 户 仍 然 可 以 绕 过 阻碍 来 修改 变量 。 那 么 要 真正 实现 只 读 属性 怎 
么 做 呢 ? 我 们 来 看 一 个 可 行 的 实现 : 


def ro_property(obj, name, value): 
setattr(obj._ class , name, property(lambda obj: obj._ dict _[" _" + name])) 
setattr(obj, " _" + name, value) 
class ROClass(object): 
def _ init (self, name, available): 
ro_property(self, "name", name) 
self.available = available 
a = ROClass("read only", True) 
print a.name 
a._Article name ="modify" 
print a._ dict _ 
print ROClass._ dict _ 
print a.name 


上 壕 程序 的 输出 如 下 : 


read only 
{'available': True, '_ name': 'read only', '_Article name': 'modify'} 
{'__ module ': "main ', 'name':; <property object at QOxOOCA7330>, '_ dict _': 
<attribute ' dict ' of 'ROClass' objects>, ' weakref ': <attribute ' 
_ weakre 
f__' of 'ROClass' objects>, '_ doc ': None, '_ init _': <function __init at 0 
X00D617BO>} 
read only 


我 们 发 现 ， 当 用 户 再 试图 用 a，Article ” name 来 修改 变量 _ name 的 时 
候 并 没有 达到 目的 ， 而 是 重新 创建 了 新 的 属性 _Article_name， 这 样 就 
能 够 很 好 地 保护 可 读 属 性 不 被 修改 ， 以 免 造 成 损失 了 。 


建议 62: 掌握 metaclass 


什么 是 元 类 (metaclass) ? 也 许 我 们 对 下 面 这 些 说 法 都 不 陌生 : 


:元 类 是 关于 类 的 类 ， 是 类 的 模板 。 


元 类 是 用 来 控制 如 何 创建 类 的 ， 正 如 类 是 创建 对 象 的 模板 一 样 。 
:元 类 的 实例 为 类 ， 正 如 类 的 实例 为 对 象 。 
这 些 说 法 都 没有 错 ， 在 概念 之 外 我 们 来 进行 一 些 更 深入 的 探讨 : 


元 类 是 如 何 来 控制 类 的 创建 的 ? 用 户 该 如 何 定义 目 己 的 元 类 ? 在 哪些 
情况 下 需要 用 到 元 类 ? 使 用 元 类 可 以 解决 什么 问题 ? 


我 们 知 Python 中 一 切 乡 对 象 ， 类 也 是 对 象 ， 可 以 在 运行 的 时 候 动 
仿 创 建 。 当 使 用 关键 字 class 的 时 候 ，Python 解 释疑 在 执行 的 时 候 束 会 
创建 一 个 对 象 (这 里 的 对 象 是 指 类 而 非 类 的 实例 ) 。 


>>> def dynamic_class(name): 
二 | e == 'A': 
class A(object): 


return A 
else: 
class B(object): 
pass 

return B 
>>> 
>>> UserClass = dynamic_ class('A') 
>>> print UserClass 
<class ' main .A'> 
>>> UserClass() 


<_main .A object at 0x00D67CF0> 
>>> 


既然 类 是 对 象 ， 那 么 它 束 有 其 所 属 的 类 型 ， 也 一 定 还 有 什么 东西 
能 够 控制 它 的 生成 。 通 过 type 查 看 会 发 现 UserClass 的 类 型 为 type， 而 其 


对 象 UserClass() 的 类 型 为 类 A 。 


>>> type(UserClass) 
<type 'type'> 

>>> type(UserClass( ) ) 
<class ' main .A'> 


同时 我 们 知道 type 还 可 以 这 样 使 用 : 


父 类 的 元 组 (针对 继承 的 情况 ， 可 以 为 空 ) ， 
包含 属性 的 字典 (名 称 和 值 ) ) 


例如 : 


>>> A=type('A', (object, ),{'value' :2}) 
>>> A.value 

>>> print A 

<class ' main_ .A'> 
>>> class C(A): 

pass 

>>> print C 

<class ' main .CcC'> 
>>> 

>>> print C._ class _ 
<type 'type'> 


上 例 中 type 通 过 接受 类 的 描述 作为 参数 返回 一 个 对 象 ， 这 个 对 象 
可 以 被 继承 ， 属 性 能 够 被 访问 ， 它 实际 是 一 个 类 ， 其 创建 由 type 控 
制 ， 由 type 所 创建 的 对 象 的 _class_ 属性 为 type。type 实 际 上 是 Python 
的 一 个 内 建 元 类 ， 用 来 直接 指导 类 的 生成 。 当 然 ， 除了 使 用 内 建 元 类 
type， 用 户 也 可 以 通过 继承 type 来 自 定 义 元 类 。 我 们 来 看 一 个 利用 元 类 
实现 强制 类 型 检查 的 例子 。 


class TypeSetter(object): 
def _ init (self,fieldtype): 
print "set attribute type",fieldtype 
self.fieldtype = fieldtype 
def is_ valid(self,value): 
return isinstance(value, self.fieldtype) 


class TypeCheckMeta(type ) : 
def _new_ (cls,name,bases,dict) : 
print '------------------------------- 
print "Allocating memory for class", name 
print name 
print bases 
print dict 
return super(TypeCheckMeta, cls). new (cls,name,bases,dict) 
def _ init__(cils,name,bases,dict): 
cls._fields = {} 
for key,value in dict.items(): 
If isinstance(value,TypeSetter): 
cls._fields[key] = value 
def sayHi(cls): 
print "Hi" 


TypeSetter 用 来 设置 属性 的 类 型 ，TypeCheckMeta 为 用 户 目 定义 的 
元 类 ， 敌 盖 了 type 元 类 中 的 _new_() 方 法 和 __init_ 0) 方法。 虽然 也 可 
以 直接 使 用 TypeCheckMetaCname,bases,dicb 这 种 方式 来 创建 类 ， 但 更 
为 常见 的 是 在 需要 被 生成 的 类 中 设置 “metaclass 属性， 两 种 用 法 是 


等 价 的 。 


class TypeCcheck(object ) : 
_ metaclass _ = TypecheckMeta 
def _ setattr__(self,key,value): 
print "set attribute value" 
If key in self._ fields: 
if not Self, fields[key].is_valid(value): 
raise TypeError( ' Invalid type for field') 
super(TypeCheck, self). setattr__(key,value) 
class MetaTest(TypeCheck): 
name = TypeSetter(str) 
num = TypeSetter(int) 
mt = MetaTest() 
mt.name = "apple" 
mt.num = "test" 


当 类 中 设置 了 _metaclass 属性 的 时 候 ， 所 有 继承 上 自 该 类 的 子 类 
都 将 使 用 所 设置 的 元 类 来 指导 类 的 生成 ， 因 此 上 壕 程序 的 输出 如 下 : 


Allocating memory for class TypeCheck 


TypeCheck 

(<type 'object'>,) 

{'_ module ':'_ main ','_ metaclass ':<class '_ main _.TypeCheckMeta'>, 
_setattr_ _': <function __setattr_ _ at QOx00D61830>} 


Set attribute type <type 'str'> 
Set attribute type <type 'int'> 


Allocating memory for class MetaTest 


MetaTest 

(<class ' main .TypeCheck'>,) 

{'_ module ':'_ main ','num'; < main ,TypeSetter object at 0x00D67E70>，'n 
ame': < main .TypeSetter object at 0x00D67E50>} 
set attribute Value 
set attribute Value 
Traceback (most recent call last): 

File "metatest.py", line 38, in <module> 

mt.num = "test" 

File "metatest.py", line 28, in _ setattr _ 

raise TypeError('Invalid type for field') 

TypeError: Invalid type for field 


实际 上 ， 在 新 式 类 中 当 一 个 类 末 设 置 _metaclass_ 属性 的 时 候 ， 
它 将 使 用 默认 的 type 元 类 来 生成 类 。 而 当 该 属性 被 设置 时 查找 规则 如 
下 : 
1) 如 果 存 在 dict[' ”metaclass_']， 则 使 用 对 应 的 值 来 构建 类 ， 否 
则 使 用 其 父 类 dict['” metaclass _"] 中 所 指定 的 元 类 来 构建 类 ， 当 父 类 中 
也 不 存在 指定 的 metaclass 的 情形 下 使 用 默认 元 类 type 。 


2) 对 于 古典 类 ， 条 件 1 不 满足 的 情况 下 ， 如 果 存 在 全 局 变量 
metaclass _， 则 使 用 该 变量 所 对 应 的 元 类 来 构建 类 ; 否则 使 用 
types.ClassType ° 


读者 可 以 通过 将 上 壕 例 子 中 ”metaclass”=TypeCheckMeta 设 置 为 
模块 级 别 或 者 将 TypeCheck 改 为 古典 类 来 验证 上 述 查 找 规则 。 


需要 额外 提醒 的 是 ， 元 类 中 所 定义 的 方法 为 其 所 创建 的 类 的 类 方 
法 ， 并 不 属于 该 类 的 对 象 。 因 此 上 例 中 mt.sayHi0 会 抛 出 AttributeError: 
'MetaTest' object has no attribute 'sayHi' 错 误 ， 而 调用 该 方法 的 正确 途径 
为 MetaTest.sayHi()。 


那么 在 什么 情况 下 会 用 到 元 类 呢 ? 有 人 句 话 是 这 么 说 的 ， 当 你 面临 


一 个 问题 还 在 纠结 要 不 要 使 用 元 类 的 时 候 ， 往 往 会 有 其 他 的 更 为 商 单 
的 解决 方案 。 


Python 界 的 领袖 Tim Peters 曾 这 样 说 过 : “元 类 束 是 深度 的 魔法 ， 
99% 的 用 户 应 该 根本 不 必 为 此 操心 。 如 果 你 想 搞 清楚 究竟 是 否 需 要 用 
到 元 类 ， 那 么 你 就 不 需要 它 。 那 些 实际 用 到 元 类 的 人 都 非常 清楚 地 知 
道 他 们 需要 做 什么 ， 而 且 根 本 不 需要 解释 为 什么 要 用 元 类 。” 


我 们 来 看 几 个 使 用 元 类 的 场景 。 
1) 利用 元 类 来 实现 单 例 模 式 。 


Class Singleton(type): 
def _ init__(cils,name,bases, dic): 
super (Singleton, cls)._ init (name,bases, dic) 
cls,instance = None 
def _ call (cils, “args, **kwargs): 
if cls.instance is None: 
print "creating a new instance" 
cls.instance = super(Singleton,cls)._ call _ 
(*args, **kwargs) 
else: 
print "warning:only allowed to create one 
instance,minstance already exists!" 
return cls.instance 
class MySingleton(object): 
_metaclass _ = Singleton 


2) 第 二 个 例子 来 源 上 于 Python 的 标准 库 车 string.Template.string， 它 提 
供 简 单 的 字符 串 奉 换 功 能 。 香 见 的 使 用 例子 如 下 ; 


Template('$name $age').substitute({'name':'admin'}, age=26) 


该 标准 库 的 源 代 码 中 就 用 到 了 元 类 ，Template 的 元 类 为 
_TemplateMetaclass。_TemplateMetaclass 的 _init_() 方 法 通过 查找 属性 
pattern、delimiter 和 idpattern) 并 将 其 构建 为 一 个 编译 好 的 正则 表达 
式 存放 在 pattern 属 性 中 。 用 户 如 果 需 要 上 自 定 义 分 隅 符 (delimiter) 可 以 
通过 继承 Template 并 才 盖 它 的 类 属性 delimiter 来 实现 。string.Template 

的 部 分 源 代 码 如 下 : 


class Template: 
"""A string class for supporting $-substitutions.""" 
_metaclass = _TemplateMetaclass 
delimiter = '$' 
idpattern = r'[_a-z][_a-z0-9]*" 
def _ init (self, template): 
self.template = template 
class _TemplateMetaclass(type): 
pattern = r""" 


%(delim)s(?: 
(?P<escaped>%(delim)s) | # Escape sequence of two delimiters 
(?P<named>%(id)s) | # delimiter and a Python identifier 
{(?P<braced>%(id)s)} | # delimiter and a braced identifier 
(?P<invalid>) # Other ill-formed delimiter exprs 


def _ init (cls, name, bases, dct): 
super(_TemplateMetaclass, cls)._ init (name, bases, dct) 
if 'pattern' in dct: 
pattern = cls.pattern 


else: 
pattern = _TemplateMetaclass.pattern %{ 
'delim' : _re.escape(cls.delimiter), 
"id' : cls.idpattern, 


} 
cls.pattern = _re.compile(pattern, _re.IGNORECASE | _re.VERBOSE) 


男 外 在 Django ORM、AOP 编 程 中 也 有 大 量 使 用 元 类 的 情形 。 最 后 


来 谈 谈 关于 元 类 需要 注意 的 几 点 : 


1) 区 别 类 方法 与 元 方法 〈 定 义 在 元 类 中 的 方法 ) 。 我 们 先 来 看 一 
个 例子 : Meta 和 SubMeta 都 为 元 类 ， 其 中 SubMeta 继 承 目 Meta。 因 此 
f1、 好 都 为 元 方法 ， 而 Test 为 普通 类 ， 其 元 类 设置 为 SubMeta， 人 为 类 


罗 | 


>>> class Meta(type ) : 
def f1i(cls): 
print "This is f1()" 


>>> class SubMeta(Meta): 
def f2(c1ls): 
print "This is f2()" 


>>> 


>>> class Test(object): 
_ metaclass = SubMeta 
@classmethod 
def f3(cls): 
print " I am f3()" 
>>> 


>>> t= Test() 
>>> SubMeta.f1(Test ) 
This is f1() 


>>> Meta.f1(Test ) 
This is f1() 
>>> Test.f1() 
This is f1() 
>>> SubMeta.f2(Test) 
This is f2() 
>>> Test.f2() 
This is f2() 
>>> t.f2() 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
AttributeError: 'Test' object has no attribute 'f2'" 
>>> Test.f3() 
I am f3() 
>>> t.f3() 
I am f3() 
>>> 


上 面 的 例子 说 明 ， 元 方法 可 以 从 元 类 或 者 类 中 调用 ， 而 不 能 从 类 
的 实例 中 调用 ;但 类 方法 可 以 从 类 中 调用 ， 也 可 以 从 类 的 实例 中 调 
用 。 


2) 多 继承 需要 严格 限制 ， 和 否则 会 产生 冲突 。 


>>> class M1(type): 
def _ new_ (meta, name, bases, atts): 
print "M1 called for " + name 
return super(M1, meta). new_ (meta, name, bases, atts) 


>>> class C1(object ) : 
oe _ metaclass = M1 


M1 called for C1 
>>> 


>>> class Sub1(C1) :pass 


M1 called for Sub1 
>>> class M2(type): 
3 def _ new_ (meta, name, bases, atts): 
print "M2 called for " + name 
return super(M2, meta). new _ (meta, name, bases, atts) 


>>> class C2(object): 
et _ metaclass = M2 


M2 called for C2 
>>> class Sub2(C1, C2): 
pass 


M1 called for Sub2 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "<stdin>", line 4, in _ new 
TypeError: Error when calling the metaclass bases 
metaclass conflict: the metaclass of a derived class must be a (non-strict) 
subclass of the metaclasses of all its bases 


上 面 的 例子 中 当 Sub2 同 时 继承 自 元 类 C1 和 C2 的 时 候 会 抛 出 异常 
这 是 因为 Python 解 释 器 并 不 知道 C1 和 C2 是 否 兼 容 ， 因 此 会 发 出 冲突 警 
告 。 解 决 冲突 的 办 法 是 重新 定义 一 个 派生 自 M1 和 M2 的 元 类 ， 并 在 C3 
中 将 其 _metaclass_ 属性 设置 为 该 派生 类 。 


>>> class M3(M1, M2): 
i def _ new _ (meta, name, bases, atts): 
print "M3 called for " + name 
return super(M3, meta)._ new_ (meta, name, bases, atts) 


>>> class C3(C1, C2): 
_ metaclass = M3 


M3 ‘called for C3 
M1 called for C3 
M2 called for C3 


元 类 用 来 指导 类 的 生成 ， 元 方法 可 以 从 元 类 或 者 类 中 调用 ， 不 能 
从 类 的 实例 中 调用 ， 而 类 方法 既 可 以 从 类 中 调用 也 可 以 从 类 的 实例 中 
调用 。 


建议 63: 束 悉 Python 对 象 协 议 


因为 Python 是 一 门 动态 语言 ，Duck Typing 的 概念 遍布 其 中 ， 所 以 
ee mn 而 另外 使 用 称 为 协议 的 概 
。 所 谓 协 议 ， 类 似 你 讲 英 语 ， 我 也 讲 英 语 ， 我 们 吏 可 以 交流 ; 在 
Python 是 我 需要 调用 人 区 个 方法 你 正好 就 有 这 个 方法 。 比 如 在 字 
符 串 格式 化 中 ， 如 果 有 占 位 符 %s， 那 么 按照 字符 串 转 换 的 协议 ， 
in 会 去 目 动 地 调用 相应 对 象 的 _str_0 〇 方法 。 


>>> class Object(object): 
def __str__(self): 
print 'called str__ 
return super (Object, ee __str_() 


>>> 0 = 


<_main  ， object object at 90x10277a5d0> 


这 倒数 第 二 行 就 是 明证 。 除 了 _ str_0 外 ， 还 有 其 他 的 方法 ， 比 如 
_ repr ()、_int 0、 long 0、 _ float ()、_nonzero 0 等 ， 统 称 
类 型 转换 协议 。 除 了 类 型 转换 协议 之 外 ， 还 有 许多 其 他 协议 。 


1) 用 以 比较 大 小 的 协议 ， 这 个 协议 依赖 于 _cmp_0 方 法， 与 C 语 
言 库 函 数 cmp 类 似 ， 当 两 者 相等 时 ， 返 回 0， 当 self<other 时 返回 负 值 ， 
反之 返回 正 值 。 因 为 它 的 这 种 复杂 性 ， eh 

0、 lt 0、 gt _0 等 方法 来 实现 相等 、 ` 小 于 和 大 于 的 
到， 这 也 就 是 Python 对 ==、!=、< 和 > 等 操作 人 
制 。 


2) 数值 类 型 相关 的 协议 ， 这 一 类 的 函数 比较 多 ， 如 表 6-2 所 示 。 
表 6-2 Python 的 协议 与 栈 数 对 应 天 系 表 


分 类 | 方 法 | 操作 符 /西数 说 明 


rs 了 


真 除法 _ future _.division 起 作用 时 调用 ， 
_ truediv _ 
否则 调用 由 


| pow | 徊 运算 


| 到 
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TT = | 

ET 
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有 
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se 
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| 
mnie 
I 
和 | Ta 
| 


基本 上 ， 只 要 实现 了 表 6-2 中 的 几 个 方法 ， 基 本 上 束 能 够 模拟 数值 
类 型 了 。 不 过 还 需要 提 到 一 个 Python 中 特有 的 概念 ， 反 运算 。 别 被 吓 
着 ， 其 实 非 常人 简单 。 以 加 法 为 例 ，something+other， 调 用 的 是 
ee add ”0 方法 ， 若 雪 something 没 有 add_() 方 法 怎么 办 
呢 ? 调用 other， add_(0) 是 不 对 的 ， 这 时 候 Python 有 一 个 反 运 算 的 协 


议 ， 它 会 去 查看 other 有 没有 _radd_(0) 方 法 ， 如 果 有 ， 则 以 something 为 
参数 调用 之 。 类 似 _radd (0 的 方法 ， 所 有 的 数值 运算 伯 和 位 运算 和 从 都 
是 支持 的 ， 规 则 也 是 一 律 在 前 面 加 上 前 弧 r 即 可 ， 在 此 不 再 细 表 。 


3) 容器 类 型 协议 。 容 器 的 协议 是 非常 浅显 的 ， 既 然 为 容器 ， 那 么 
必然 要 有 协议 查询 内 含 多 少 对 象 ， 在 Python 中 ， 就 是 要 文 持 内 置 函 数 
len0， 通 过 _len_(0) 来 完成 ， 一 目 了 然 。 而 _getitem_ (0)、 

_ setitem 0、 _ delitem_ 0 则 对 应 读 、 写 和 删除 ， 也 很 好 理解 。 
_iter_0 实 现 了 和 迭代 需 协 议 ， 而 _reversed_(0) 则 提供 对 内 置 本 数 
reversed() 的 文 持 。 容 絮 类 型 中 最 有 特色 的 是 对 成 员 关 系 的 判断 符 ih 和 
not 记 的 支持 ， 这 个 方法 叫 _contains_(0)， 只 要 文 持 这 个 函数 就 能 够 使 
用 in 和 not in 运算 符 了 。 


4) 可 调用 对 象 协 议 。 所 谓 可 调用 对 象 ， 即 类 似 函 数 对 象 ， 能 够 让 
类 实例 表现 得 像 男 数 一 样 ， 这 样 丈 可 以 让 每 一 个 函数 调用 都 有 所 不 
责 5 


>>> class Functor(object ) : 
人 def _ init (self, context): 
self. context = context 
def _ call (self): 
print 'do something with %s' % self._context 
>>> lai functor = Functor('lai') 
>>> yong_functor = Functor('yong') 
>>> lai_functor() 
do something with lai 
>>> yong_functor() 
do something with yong 


5) 与 可 调用 对 象 差 不 多 的 ， 还 有 一 个 可 哈 硕 对 象 ， 它 是 通过 
_hash_“() 方 法 来 文 持 hashO 这 个 内 置 函 数 的 ， 这 在 创建 和 目 己 的 类 型 时 
非常 有 用 ， 因 为 只 有 支持 可 蛤 希 协 议 的 类 型 才能 作为 dict 的 键 类 型 (不 
过 只 要 继承 自 object 的 新 式 类 默认 就 支持 了 ) 。 


6) 前 面 的 文档 谈 对 描述 符 协 议和 属性 交互 协议 (_ getattr_()、 
_ setattr_(0、_ delattr0) ， 那 么 剩 下 来 还 值得 一 谈 的 就 是 上 下 文 管理 
铝 协 议 了 ， 也 就 是 对 with 语 句 的 文 持 ， 这 个 协议 通过 ”enter (0 和 
_ exit _() 两 个 方法 来 实现 对 资源 的 清理 ， 确 你 资源 无 论 在 什么 情况 下 
都 会 正常 清理 。 


class Closer: 
Li | 


通过 with 
语句 和 一 个 close 
方法 来 关闭 一 个 对 象 '' ， 
def _ init (self, obj): 
self.obj] = obj 
def __enter__(self): 
return self.obj # bound to target 
def _ exit (self, exception_ type, exception_val, trace): 
try: 
self.obj.close() 
except AttributeError: # obj isn't closable 
print 'Not closable.' 
return True # exception handled successfully 


对 于 实现 了 这 两 个 方法 的 Closer 类 ， 我 们 可 以 如 下 使 用 它 : 


>>> from ftplib import FTP 
>>> with Closer(FTP('ftp.somesite.com')) as conn: 
conn.dir() 


>>> conn.dir() 
>>> 


可 以 看 到 第 二 次 调用 conn.dirO 已 经 没有 和 输出， 这 是 因为 这 个 FTP 连 
接 会 话 已 被 关闭 的 缘故 。 与 这 里 Closer 类 似 的 类 在 标准 库 中 已 经 存在 ， 
就 是 contextlib 里 的 closing 。 


至 此 ， 常 用 的 对 象 协议 承 讲 完了 ， 只 要 活 学 活用 这 些 协议 ， 就 能 
够 写 出 更 为 Pythonic 的 代码 。 不 过 也 要 注意 ， 协 议 不 像 Ct++、Java 等 语 
言 中 的 接口 ， 它 更 像 是 声明 ， 没 有 语言 上 的 约束 力 ， 需 要 大 家 共同 遵 
守 。 


建议 64: 利用 操作 符 重 载 实现 中 绥 语 法 


可 能 你 跟 我 一 样 ， 学 完 各 种 对 象 协议 后 束 跃 跃 欲 坛 。 当 年 我 初学 
Python 的 时 候 ， 原 本 最 熟悉 的 编程 语言 是 C++， 所 以 学 会 操作 符 重 载 
以 后 ， 束 拿 来 炫 技 了 。 


>>> class endl(object):pass 


>>> class Cout(object): 
i def _ lshift_ (self, obj): 
if obj is endl: 
print 
return 
print obj, 
return self 


>>> cout = Cout() 
>>> cout << 1 << 2 << endl 
12 


如 果 你 像 我 当年 那样 初学 Python， 你 就 会 明白 这 种 模拟 C++ 的 流 
输出 让 我 感觉 有 多 炫 ! 但 是 现在 我 知道 这 是 一 种 对 特性 的 得 用 ， 不 应 
提倡 。 不 过 我 在 这 里 重 提 旧 事 的 原因 是 想 要 引出 一 个 非常 棱 的 利用 操 
作 符 重 载 实现 更 优雅 的 代码 的 例子 。 


玖 悉 Shell 脚 本 编程 朋友 应 该 都 非常 束 悉 “这 个 符号 ， 它 表示 管 
道 ， 用 以 连接 两 个 应 用 程序 的 输入 输出 。 比 如 按 字母 表 反 序 遍 历 当前 
目录 的 文件 与 子 目录 ， 可 以 如 下 使 用 : 


$ ls | sort -r 
test 
releases 


common 
branches 
art 


管道 的 处 理 非常 清晰 ， 因 为 它 是 中 级 语法 。 而 我 们 常用 的 Python 
是 前 级 语法 的 ， 比 如 类 似 的 Python 代 码 应 该 是 sort(ls(),reverse=True)， 
明显 没有 那么 清晰 ， 特 别 是 在 极限 情况 下 。 


sum(select(where(take while(fib(), lambda x: x < 1000000) lambda x: x % 2), 
lambda x: x * x)) 


像 这 样 的 代码 ， 一 堆 sum、select、where 混 在 一 起 ， 一 眼看 过 去 已 
经 头 大 如 斗 了 。 管 道 符 号 在 Python 中 ， 也 是 或 符号 ， 那 么 有 没有 可 能 
利用 它 来 简化 代码 昵 ? 这 个 想法 后 来 由 Julien Palard 开 发 了 一 个 pipe 
库 ， 达 成 了 所 愿 。 这 个 pipe 库 的 核心 代码 只 有 几 行 ， 束 是 重 载 了 
_IOr (方法 。 


class Pipe: 
def _ init (self, function): 
self.function = function 
def _ror__(self, other): 
return self.function(other) 
def _ call (self, *args, **kwargs): 
return Pipe(lambda x: self.function(x, *args, **kwargs)) 


这 个 Pipe 类 可 以 当成 男 数 的 decorator 来 使 用 。 比 如 在 列表 中 筛选 
数据 ， 可 使 用 如 下 实现 : 


@Pipe 
def where(iterable, predicate): 
return (x for x in iterable if (predicate(x))) 


pipe 库 内 置 了 一 堆 这 样 的 处 理 函 数 ， 上 文 所 述 的 sum、select、 
where 等 函数 尽 在 其 中 ， 所 以 马上 就 可 以 拿 来 改造 之 前 的 代码 。 


fib() | take while(lambda x: x < 1000000) \ 
| where(lambda x: x % 2) \ 
| select(lambda x: x * X) \ 
| sum() 


看 ， 现 在 是 不 是 一 眼 束 可 以 看 出 代码 的 意义 了 呢 ? 网 是 找 出 小 于 
1000000 的 辈 波 那 契 数 ， 并 计算 其 中 的 偶数 的 平方 之 和 。 通 过 这 个 例 
子 ， 可 以 看 出 中 绥 语 法 在 这 种 流 式 数据 处 理 上 的 确 是 非常 有 优势 的 。 


pipe 已 经 发 布 到 pypi， 可 以 使 用 pip install pip 命 令 安装 。 安 装 完成 
以 后 可 以 在 Python Shell 中 党 试 一 下 。 


>>> from pipe Import * 

>>> [1, 2, 3, 4, 5] | where(lambda x: x % 2) | tail(2) | select(lambda x: x * x) 
| add 

34 


此 外 ，pipe 是 惰性 求 值 的 ， 所 以 我 们 完全 可 以 弄 一 个 无 穷 生成 右 
而 不 用 担心 内 存 被 用 完 。 比 如 : 


>>> def fib(): 
ee a, b= 0, 1 
while True: 
yield a 

a, b=b,a+b 


然后 来 做 一 个 题目 :计算 小 于 4?000?000 的 辈 波 那 契 数 中 的 偶数 之 
和 。 


>>> euler2 = fib() | where(lambda x: x % 2 == 0) | take while(lambda x: x < 
4000000) | add 
>>> assert euler2 == 4613732 


可 以 看 到 代码 非常 易 读 ， 束 像 读 目 然 语言 一 样 。 除 了 处 理 数 值 很 
方便 ， 用 它 来 处 理 文本 也 一 样 简 单 。 看 看 这 个 需求 : 读 取 文 件 ， 统 计 
文件 中 每 个 单词 出 现 的 次 数 ， 然 后 按照 次 数 从 高 到 低 对 单词 排序 。 


from future_ import print_function 

from re import split 

from pipe import * 

with open('test_descriptor.py') as f: 
print(f.read() 


Pipe(lambda x:Split(' /w+'，X)) 

Pipe(lambda x:(i for i in x if i.strip())) 
groupby(lambda x:x) 

select(lambda x:(x[0], (x[1] | count))) 
sort(key=lambda x:x[1], reverse=True) 


Nd ee we sd 


看 看 ， 非 常 简 单 吧 ? 在 我 这 里 运行 的 结果 如 下 : 


[('self', 13), ('foo', 9), ('item', 9), 
('return', 5), ('Jeff', 4), ('i', 4 
('obj', 4), ('val', 4), ('class', 3 
('Foo', 2), ('ItemDescriptor', 2), 


, ('print', 7), ('def', 5), 
('jeff', 4), ('ken', 4), 
('pan'’, 3), ('tmp', 3), 


8 
('in', 4) 
3), 
), ('_iter  '，2)，('for'， 


('1ai', 


('_data', 
了 
了 
"Wrapper '， 


) 

) , 
) ) 
( 2 
2), 

("if', 2), ('next', 2), ('object', 2), ('0', 1), ('1', 1), ('30', 1), ('8', 
1), 

('None', 1), ('_ class ', 1), ('_ future ', 1), ('_ get ', 1), 
(' init_ _', 1), 

('— set__', 1), ('bin', 1), ('coding', 1), ('env’', 1), ('f', 1), ('from', 1), 

('import', 1), ('instance', 1), ('isinstance', 1), ('len', 1), ('list', 1), 

('print_function', 1), ('python’', 1), ('type', 1), ('usr', 1), ('utf', 1)] 


建议 65: 束 悉 Python 的 迭代 需 协 议 


其 实 对 于 大 部 分 Python 程序 员 而 言 ， 迭 代 顺 的 概念 可 能 并 不 熟悉 。 
但 这 很 正常 ， 与 Ct+ 等 语言 不 同 ，Python 的 迭代 器 集成 在 语言 之 中 ， 与 
语言 完美 地 无 颖 集成 ， 不 像 C++ 中 那样 需要 专门 去 理解 这 一 个 概念 。 比 
如 ， 要 遍历 一 个 容器 ，Python 代 码 如 下 : 


>>> alist = range(2) 
>>> for i in alist: 

A print i 

0 
工 


而 C++ 代码 如 下 : 


using namespace std; 

vector<int> myIntVector; 

往 容 器 myIntVector 

中 添加 元 素 的 操作 ， 格 

for(vector<int>::iterator = myIntVector.begin(); 
myIntVectorIterator != myIntVector.end(); 
myIntVectorIterator++){ 

cout<<*myIntVectorIterator<<" ",， 


两 相对 比 ， 可 以 看 到 C++ 的 代码 中 ， 多 了 一 个 vector<int>::iterator 
类 型 ， 它 是 什么 、 有 什么 用 、 什 么 时 候 用 、 怎 么 用 ， 都 是 C++ 程序 员 需 
要 理解 和 掌握 的 内 容 ， 所 以 可 以 说 ， 在 “实现 遍历 容器 * 这 一 事情 上 ， 
使 用 C++ 要 付出 更 多 的 精力 去 学 习 更 多 的 内 容 ， 这 束 是 Python 把 迭代 器 
内 建 在 语言 之 中 的 好 处 。 


但 是， 并 非 所 有 的 时 候 都 能 够 隐藏 细 下 ， 竺 别 是 在 写 一 本 书 同 谈 
者 讲述 其 中 的 机 理 的 时 候 。 所 以 在 这 里 ， 首 先 需 要 向 大 家 介绍 一 下 
iter() 落 数 。iter() 可 以 输入 两 个 实 参 ， 但 为 了 人 简化 起 见 ， 在 这 里 忽略 第 


二 个 可 选 参数 ， 只 介绍 一 个 参数 的 形式 。iter() 函 数 返 回 一 个 送 代 右 对 

象 ， 接 受 的 参数 是 一 个 实现 了 __iter_ 0 方法 的 容器 或 迭代 器 (精确 来 

说 ， 还 文 持 仅 有 getitem (方法 的 容器 ) 。 对 于 容器 而 言 ，_ iter_() 
方法 返回 一 个 类 代 器 对 象 ， 而 对 大 代 器 而 言 ， 它 的 _iter 0 方法 返回 

其 目 身 ， 所 以 如 有 果 我 们 用 一 个 迭代 器 对 象 让 ， 当 以 它 为 参数 调用 iter(iD 

时 ， 返 回 的 是 目 吴 。 


>>> it = iter(alist) 
>>> it2 = iter(it) 
>>> assert id(it) == id(it2) 


到 时 此 ， 残 可 以 跟 大 家 讲 一 下 和 欠 代 天 协议 了 。 前 文 已 经 说 过 ， 所 
谓 协 议 ， 是 一 种 松散 的 约定 ， 并 没有 相应 的 接口 定义 ， 所 以 把 协议 宵 
单 归 纳 如 下 : 


1) 实现 _iter 0 方法， 返回 一 个 迭代 器 。 


2) 实现 next0 方 法 ， 返 回 当 前 的 元 素 ， 并 指向 下 一 个 元 素 的 位 
置 ， 如 果 当 前 位 置 已 无 元 素 ， 则 抛 出 StopIteration 异 常 。 


可 以 通过 以 下 代码 验证 这 个 协议 : 


>>> alist = range(2) 

>>> it = alist. iter_() 

>>> it.next() 

0 

>>> it.next() 

工 

>>> it.next() 

Traceback (most recent call last): 


File "<stdin>", line 1, in <module> 
StopIteration 


与 上 例 使 用 iter() 内 置 贸 数 不 同 ， 这 次 的 代码 是 it=alist._ iter_()， 
可 见 list 这 一 容器 确实 是 实现 了 迭代 器 协议 中 容器 的 部 分 。 后 续 连 续 3 次 
的 next() 方 法 调用 也 印证 了 协议 的 第 2 条 。 


熟悉 了 迭代 器 协议 ， 那 么 我 们 束 可 以 使 用 它 来 志 历 所 有 的 容 融 ， 
仍然 以 list 对 象 为 例 。 


>>> alist = range(2) 
>>> it = iter(alist) 
>>> while True: 
try: 
print it.next() 
except StopIteration: 
break 


PO .. . - 


可 以 看 到 输出 跟 最 初 使 用 for 循 环 是 一 样 的 ， 对 ， 你 的 灵光 一 内 没 
有 错 ， 其 实 for 语 句 就 是 对 获取 容 右 的 迭代 器、 调用 迭代 器 的 next() 方 法 
以 及 对 StopIteration 进 行 处 理 等 流程 进行 封 效 的 语法 糖 (类 似 的 语法 糖 
还 有 in/not it 语句 ) 


迭代 器 最 大 的 好 处 是 定义 了 统一 的 访问 容器 (或 集合 ， 的 统一 接 
口 ， 所 以 程序 员 可 以 随时 定义 目 己 的 欠 代 吕 ， 只 要 实现 了 迭代 器 协 议 
束 可 以 。 除 此 之 外 ， 适 代 器 还 有 和 悄 性 求 值 的 特性 ， 它 仅 可 以 在 迭代 至 
当前 元 素 时 才 计 算 (或 读 取 ) 该 元 素 的 值 ， 在 此 之 前 可 以 不 存在 ,在 
此 之 后 可 以 销 驱 ， 也 了 就 是 说 不 需要 在 遍历 之 前 事 允 准备 好 整个 欠 代 过 
程 中 的 所 有 元 素 ， 所 以 非常 适合 肖 历 无 穷 个 元 素 的 集合 (如 辈 波 那 奖 
数列 ) 或 巨大 的 事物 (如 文件 ) 


class Fib(object): 
def _ init _(self): 
self. a=0 
self. b=1 
def _ iter__(self): 
return self 
def next(self): 
self. a, self. b = self. b, self. a + self._b 
return self. a 
for i, f in enumerate(Fib()): 
print f 
if i > 10: 
break 


这 段 代码 能 够 打印 右 波 那 契 数列 的 前 10 项 。 再 来 看 一 下 传统 的 使 
用 容 右 存储 整个 数列 的 方案 。 


>>> def fib(n): 
返回 小 于 指定 值 的 斐 波 那 契 数列 """ 


while b<n: 
result.append(b) 
a, b=b,a+b 
return result 

>>> fib(10) 

[1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144] 


与 直接 使 用 容 絮 的 代码 相 比 ， 它 仅 使 用 两 个 成 员 变 量 ， 显 而 易 见 
更 省 内 存 ， 并 在 一 些 应 用 场景 更 省 CPU 计算 资源 ， 所 以 在 编写 代码 中 
应 当 多 多 使 用 迭代 希 协 议 ， 避 人 免 盆 化 代码 。 对 于 这 一 观点 ， 不 必 怀 
疑 ， 从 Python 2.3 版 本 开始 ，itertools 成 为 了 标准 库 的 一 员 已 经 充分 印证 
这 个 观点 。 


itertools 的 目标 是 提供 一 系列 计算 快速 、 内 存 高 效 的 函数 ， 这 些 函 
数 可 以 单独 使 用 ， 也 可 以 进行 组 合 ， 这 个 模块 受到 了 Haskell 等 贸 数 式 
编程 语言 的 启发 ， 所 以 大 量 使 用 itertools 模 块 中 的 函数 的 代码 ， 看 起 来 
有 点 像 贸 数 式 编程 语言 写 推荐 ， 比 如 sum(imap(operator.mul, 
vector1,vector2)) 能 够 用 来 运行 两 个 同 量 的 对 应 元 于 乘 积 之 和 。 


itertools 最 为 人 所 熟知 的 版 本 ， 应 该 算是 zip、map 、filter、slice 的 
蔡 代 ，izip (izip_longest)、imap(startmap) 、ifilter(ifilterfalse) 、islice， 
它们 与 原来 的 那儿 个 内 置 钞 数 有 一 样 的 功能 ， 只 是 返回 的 是 类 代 器 

(在 Python 3 中 ， 新 的 函数 撤 底 蔡 换 掉 了 旧 函 数 ) 


除了 对 标准 函数 的 奉 代 ，itertools 还 提供 以 下 几 个 有 用 的 函数 : 
chain0) 用 以 同时 连续 地 迭代 多 个 序列 ; compress0、dropwhile0 和 
takewhile() 能 用 以 以 选 序列 元 素 ; tee0 就 像 同 名 的 UNIX 应 用 程序 ， 对 序 


列 作 n 次 达 代 ;而 groupby 的 效果 类 似 SQL 中 相同 拼写 的 天 键 子 所 市 的 效 
时 3 


[k for k, g in groupby('AAAABBBCCDAABBB')] -->ABCDAB 
[list(g) for k, g in groupby('AAAABBBCCD')] --> AAAA BBB CC D 


除了 这 些 针 对 有 限 元 素 的 迭代 帮助 函数 之 外 ， 还 有 countO、 
cycle()、repeat() 等 贸 数 产生 无 穷 序列 ， 这 3 个 范 数 就 分 别 可 以 产生 算术 
递增 数列 、 无 限 重复 实 参 序 列 的 序列 和 重复 产生 同一 个 值 的 序列 。 


如 果 以 上 这 些 函 数 让 你 感到 吃惊 ， 那 么 接 下 来 的 4 个 组 合 数学 的 画 
数 束 会 让 你 更 加 惊讶 了 ， 如 表 6-3 所 示 。 


表 6-3 ”组合 函数 以 及 其 意义 


productO 计算 m 个 序列 的 n 次 笛 卡 尔 积 
permutations() 产生 全 排列 
combinations() 产生 无 重复 元 素 的 组 合 


combinations_with replacement() 产生 有 重复 元 素 的 组 合 
下 面 通过 例子 来 熟悉 一 下 ， 第 一 行 是 代码 ， 第 二 行 是 结果 。 


product('ABCD', repeat=2) 

AA AB AC AD BA BB BC BD CA CB CC CD DA DB DC DD 
permutations('ABCD', 2) 

AB AC AD BA BC BD CA CB CD DA DB DC 
combinations('ABCD', 2) 

AB AC AD BC BD CD 
combinations_with_replacement('ABCD', 2) 

AA AB AC AD BB BC BD CC CD DD 

站 中 product() 

可 以 接受 多 个 序列 ， 如 : 

>>> for i in product('ABC', '123', repeat=2): print ''.join(i) 


A1A1 
A1A2 


## 
略 去 其 余 输出 


建议 66: 吻 悉 Python 的 生成 大 


生成 表 ， 顾 名 思 义 ， 束 是 按 一 定 的 算法 生成 一 个 序列 ， 比 如 产生 
目 然 数 友 列 、 辈 波 那 契 数 列 等 。 之 前 讲 迄 代 器 的 时 候 ， 就 讲 过 一 个 生 
成 波 那 淖 数列 的 例子 。 那 么 迭代 器 也 是 生成 器 ? 其 实 不 然 。 适 代 器 时 
然 在 某 些 场景 表现 得 像 生成 器 ， 但 它 绝 非 生成 器 ; 反而 是 生成 器 实现 
了 和 闪 代 需 协 议 的 ， 可 以 在 一 定 程度 上 看 作 适 代 磊 。 再 把 话题 转 回 和 欠 代 
如 样式 的 斐 波 那 契 数列 实现 ， 熟 悉 Python 的 人 会 觉得 其 实 不 简 党 ， 
为 还 有 yield 表 达 式 可 以 位 化 它 。 


大 概 是 因为 生成 器 的 用 处 巨大 ， 所 以 Python 中 专门 有 一 个 关键 子 
来 实现 它 ， 束 是 yield。 甚 至 生成 器 的 定义 也 与 这 个 关键 子 有 天: 如 采 
一 个 函数 ， 使 用 了 yield 语 句 ， 那 么 它 忠 是 一 个 生成 紫 函 数 。 当 调用 生 
成 右 玉 数 时 ， 它 返回 一 个 达 代 事 ， 不 过 这 个 迷 代 右 古 以 生成 侨 对 象 的 
形式 出 现 的 。 所 以 现在 我 们 来 重 写 一 下 之 前 的 裴 波 那 奖 数列 实现 。 


def fib(n): 
a, b= 1, 1 


while a < n: 
yield a 
;b=b,a+b 
for i, f in enumerate(fib(10)): 
print f 


看 ， 代 码 行 数 是 不 是 减少 了 许多 ? 这 就 是 yield 关 键 字 的 魅力 。 不 
过 要 掌握 这 个 关键 子 可 不 容易 ， 首 先 来 看 看 fib() 芳 数 返 回 的 是 什么 。 


>>> f = fib(10) 
>>> type(f) 

<type 'generator'> 
>>> dir(f) 


['_class ', '_ delattr ', '_doc ', '_ format ', '_ getattribute _', 
'_hash _', '_ init ', '_ iter ', '_ name ', '_ new ', '_reduce ', 
'_reduce ex ', '_repr_', '_ setattr ', '_ sizeof ', '_ str__' 
'__subclasshook ', 'close', 'gi code', 'gi frame', 'gi_running', 


'next', 'send', 'throw'] 


可 以 看 到 它 返 回 的 是 一 个 generator 类 型 的 对 象 ， 而 这 个 对 象 带 有 
_iter _() 和 nextO 方 法 ， 可 见 的 确 是 一 个 迭代 器。 但 那些 next()、 
send()、throw()、close() 等 方法 是 怎么 回 事 ? 要 理解 这 些 方 法 ， 需 要 我 
们 重 温 一 下 手册 中 的 例子 。 


>>> def echo(value=None): 
， print "Execution starts when 'next()' is called for the first time." 


try: 
while True: 
try: 
value = (yield value) 
except Exception, e: 
Value = e 
finally: 


print "Don't forget to clean up when 'close()' is called." 


>>> generator = echo(1) 

>>> print generator.next() 

Execution starts when 'next()' is called for the first time. 
1 


至 此 ， 可 以 看 到 每 一 个 生成 颖 函数 调用 之 后 ， 它 的 画 数 体 并 不 执 
行 ， 而 是 到 第 一 次 调用 nextO 的 时 候 才 开始 执行 。 这 一 点 未 免 让 新 手 硕 
为 费解 ， 但 目前 来 看 除了 硬 记 住 这 一 点 外 并 无 它 法 。 要 从 根源 上 解决 
问题 的 话 ， 可 能 需要 约定 生成 右 函 数 使 用 另外 一 个 关键 字 ， 比 如 使 用 
generator 而 不 是 def， 不 然 大 家 总 是 会 往 函 数 方面 去 想 的 。 


当 第 一 次 调用 next(0 方 法 时 ， 生 成 名 图 数 开 始 执行 ， 执 行 到 yield 表 
达 式 为 止 。 如 例子 中 的 value=(yield value) 语 句 中 ， 只 是 执行 了 yield 
value 这 个 表达 式 ， 而 赋值 操作 并 未 执行 。 记 住 这 一 点 很 重要 ， 只 有 记 
住 了 这 一 点 ， 才 能 理解 后 续 的 内 容 ， 如 send(0) 方 法 。 


>>> print generator.next() 
None 


这 个 也 让 人 有 点 困惑 ， 按 代码 应 当 是 返回 1 的 ， 怎 么 返回 None 了 
呢 ? 这 时 候 需 要 注意 的 是 代码 中 的 value=(yield value)，yield 是 一 个 表 


达 式 ， 所 以 它 可 以 作为 一 个 表达 式 的 右 值 。 当 第 二 次 调用 nextO 时 
yield 表 达 式 的 值 赋值 给 了 value， 而 yield 表 达 式 的 默认 “返回 值 ” 就 是 
None， 所 以 后 续 value 的 值 就 是 None。 现 在 再 用 自然 语言 来 描述 一 次 第 
二 次 调用 nextO 的 过 程 ， 首 先是 value=(yield value) 语 句 中 的 赋值 操作 得 
到 了 执行 ， 即 value 被 赋值 为 None， 然 后 是 while 条 件 判 断 ， 再 次 进入 
循环 体 ， 执 行 value=(yield value) 语 句 ， 此 时 value 的 值 为 None，yield 出 
来 的 也 是 None， 那 么 再 次 调用 nextO 时 返回 None 就 顺理成章 了 ， 因 为 
next() 的 返回 值 就 是 yield 表 达 式 的 右 值 。 


>>> print generator.send(2) 
2 


直率 地 说 ，send() 方 法 很 绕 ， 这 不 是 一 个 好 名 字 。 其 实 send0 是 全 
功能 版 本 的 next0)， 或 者 说 nextO 是 send0 的 “快捷 方式 >， 相当 于 
send(None)。 还 记得 yield 表 达 式 有 一 个 “返回 值 ?" 吗 ? send(0) 方 法 的 作用 
束 是 控制 这 个 返回 值 ， 使 得 yield 表 达 式 的 “返回 值 > 是 它 的 实 参 。 


>>> generator .throw(TypeError， "spam") 
TypeError('spam'，) 


除了 能 yield 表 达 式 的 “返回 值 ”* 之 外 ， 世 可 以 让 它 抛 出 异常 ， 这 束 
是 throw0 方 法 的 能 力 。 在 本 例 中 ，yield value 表 达 式 抛 出 一 个 TypeError 
异常 ， 然 后 被 内 层 的 except 语 句 捕 获 ， 并 赋值 给 value， 因 此 整个 代码 
的 执行 流 并 没有 离开 while 循 环 块 ， 所 以 进入 了 下 一 次 循环 。 当 再 次 执 
行 yield value 时 ， 异 常 对 象 (也 就 是 value 的 值 ) 被 返回 到 此 次 throw0) 
调用 中 。 对 于 常规 业务 逻辑 的 代码 来 说 ， 处 理 异 常 的 情况 不 会 像 这 个 
例子 中 那样 ， 而 是 对 特定 的 异常 有 很 好 的 处 理 (比如 将 异常 信息 写 入 
日 志 后 优雅 地 返回 )  ， 从 而 实现 从 外 部 影响 生成 器 内 部 的 控制 流 。 


>>> generator.closel( 
Don't forget to clean up when 'close()' is called. 


当 调用 close0 方 法 时 ，yield 表 达 式 残 抛 出 GeneratorExit 寞 钊 ， 生 成 
器 对 象 会 自行 处 理 这 个 异常 。 当 调用 close0 之 后 ， 再 次 调用 next(、 
send() 会 使 生成 妖 对 象 抛 出 StopIteration 异 常 ， 换 言 之 ， 这 个 生成 絮 对 
象 已 经 不 可 再 用 。 最 后 值得 一 提 的 是 ， 当 生成 颖 对 象 被 GC 回收 时 ， 会 
目 动 调用 close()。 


除了 人 简化 前 文中 使 用 送 代 右 协议 生成 翡 波 那 契 数列 的 代码 之 外 ， 
生成 器 还 有 两 个 很 棱 的 用 处 ， 其 中 之 一 是 实现 with 语 句 的 上 下 文 管理 
名 协议 ， 利 用 的 是 调用 生成 颖 图 数 时 函数 体 并 不 执行 ， 当 第 一 次 调用 
next() 方 法 时 才 开 始 执行 ， 并 执行 到 yield 表 达 式 后 中 止 ， 直 到 下 一 次 调 
用 next(0 方 法 这 个 特性 ， 其 二 是 实现 协 程 ， 利 用 的 是 上 文 所 述 的 
send()、throw()、close() 等 特性 。 在 此 ， 继 续 讲述 第 一 个 应 用 ， 而 第 二 
个 应 用 留待 下 一 小 节 讲 述 。 


首先 ， 需 要 我 们 回 过 头 来 重 刘 一 下 上 下 文 管理 吉 协 议 ， 其 实 就 是 
要 求 类 实现 _enter _0 和 _ exit_ 0) 方法。 比如 以 下 file 对 象 就 实现 了 这 
个 协议 : 


>>> with open( /tmp/xxx. txt', 'w') as f: 
.write('hello, context manager.') 


但 是 生成 器 对 象 并 没有 这 两 个 方法 ， 所 以 contextlib 提 供 了 
contextmanager 函 数 来 适 配 这 两 种 协议 。 


from contextlib import contextmanager 
@contextmanager 
def tag(name): 

print "<%s>" % name 

yield 

print "</%s>" % name 
>>> with tag("h1"): 

print "foo" 


<h1> 


foo 
</h1> 


这 是 来 目 Python 文 档 的 例子 ， 当 进入 with 块 的 时 候 ，tag0) 函 数 块 的 
第 一 行 执行 ， 并 在 执行 到 第 二 行 的 时 候 中 止 ， 离 开 with 块 的 时 候 ， 执 
行 print“foo”， 完 成 后 执行 yield 后 面 的 语句 ， 也 就 是 tag() 函 数 块 的 第 三 
行 ， 然 后 整个 函数 执行 完毕 。 通 过 contextmanager 对 nextO、throw0O、 
close0) 的 封装 ，yield 大 大 简化 了 上 下 文 管理 需 的 编程 复杂 度 ， 对 提高 
代码 可 维护 性 有 着 极 大 的 意义 。 除 了 上 面 这 个 例子 之 外 ，yield 和 
contextmanger 也 可 以 用 以 “ 池 ” 模 式 中 对 资源 的 管理 和 回收 ， 具 体 的 实 
现 留 给 大 家 去 思考 。 


建议 67: 基于 生成 囊 的 协 程 及 greenlet 


在 前 文中 ， 对 生成 句 实 现 协 程 卖 了 个 小 关于， 在 这 一 厂 ， 让 我 们 
来 揭 开 谜 扎 。 不 过 在 此 之 前 ， 需 要 和 允 重 温 一 下 协 程 的 概念 ， 以 及 它 的 
意义 。 


协 程 ， 又 称 微 线程 和 纤 程 等 ， 据 说 源 于 Simula 和 Modula-2 语 言 ， 
现代 编程 语言 基本 上 都 支持 这 个 特性 ， 比 如 Lua 和 ruby 都 有 类 似 的 概 
念 。 协 程 往往 实现 在 语言 的 运行 时 库 或 虚拟 机 中 ， 操 作 系 统 对 其 存在 
一 无 所 知 ， 所 以 又 被 称 为 用 户 空间 线程 或 绿色 线程 。 又 因为 大 部 分 协 
程 的 实现 是 协作 式 而 非 抢 占 式 的 ， 需 要 用 户 自己 去 调度 ， 所 以 通常 无 
法 利用 多 核 ， 但 用 来 执行 协作 式 多 任务 非常 合适 。 用 协 程 来 做 的 东 
西 ， 用 线程 或 进程 通常 也 是 一 样 可 以 做 的 ， 但 往往 多 了 许多 加 锁 和 通 
信 的 操作 。 下 面 基 于 生产 者 消费 者 模型 ， 对 抢占 式 多 线程 编程 实现 和 
协 程 编程 实现 进行 对 比 。 首 先 来 看 使 用 以 下 线程 的 实现 〈 伪 代码 ) : 


// 
队列 容器 


var q := New quUeue 


p 
lock(q) 
get item from 9q 
unlock(q) 
if item 
use this item 


create some new items 
lock(q) 

add the items to q 
unlock(q) 


由 以 上 代码 可 以 看 到 ， 线 程 实现 至 少 有 两 点 重伤 : 


-对 队列 的 操作 需要 有 显 式 / 隐 式 〈 使 用 线程 安全 的 队列 ) 的 加 锁 操 
作 。 


消费 者 线程 还 要 通过 sleep 把 CPU 资源 适时 地 * 谦 让 ”给 生产 者 线程 
使 用 ， 其 中 的 适时 是 多 久 ， 基 本 上 只 能 静 仿 地 使 用 经 验 值 ， 效 采 往 往 
不 尽 如 人 意 。 


而 使 用 协 程 可 以 比较 好 地 解决 这 个 问题 。 看 以 下 基于 协 程 的 生产 
者 消费 者 模型 实现 ( 伪 代 码 ) : 


// 
队列 容器 
var q := new queue 
// 
生产 者 协 程 
loop 
while q is not full 
create some new items 
add the items to q 
yield to consume 


/ 
消费 者 协 程 
loop 
while q is not empt 
remove some items from qd 
use the items 
yield to produce 


可 以 从 以 上 代码 看 到 之 前 的 加 锁 和 谦让 CPU 的 硬 伤 不 复 存 在 ， 但 
也 损失 了 利用 多 核 CPU 的 能 力 。 所 以 选择 线程 还 是 协 程 ， 束 要 看 应 用 
2 


好 ， 回 到 主题 : 协 程 这 东西 关 Python 的 生成 器 什么 事 ?” 如 果 你 仔 
细 看 上 面 的 伪 代 码 ， 应 该 留意 到 其 中 出 现 了 两 个 yield! 是 的 ， 因 为 
yield 能 够 中 止 当前 代码 的 执行 ， 相 当 于 “让 出 ”CPU 资源 ， 跟 协 程 的 * 协 
作 式 ”理念 不 诬 而 合 ， 所 以 能 够 实现 协 程 。 


def consumer(): 
while True: 
line = yield 
print line.upper() 


def producter(): 
with open('/var/log/apache2/error_log', 'r') as f: 
for i, line in enumerate(f): 
yield line 
print 'processed line %d' % i 
c = consumer() 
c.next() 
for line in producter(): 
c.send(line) 


依照 上 文 的 理念 ， 编 写 了 这 些 代 码 ， 可 以 看 到 consumer() 是 一 个 
生成 需 函 数 ， 它 接收 yield 表 达 式 的 返回 值 ， 转 换 为 全 大 写 ， 并 输出 到 
标准 输出 ， 然 后 再 次 执行 yield 把 CPU 交 给 主 程序 。 它 的 执行 结果 如 下 
\ 根 据 内 容 会 有 点 不 同 ) : 


[THU OCT 31 17:49:08 2013] [WARN] INIT: SESSION CACHE IS NOT CONFIGURED [HINT : 
SSLSESSIONCACHE] 

processed line 0 

HTTPD: COULD NOT RELIABLY DETERMINE THE SERVER'S FULLY QUALIFIED DOMAIN NAME, 
USING APPLETEKIMACBOOK-PRO.LOCAL FOR SERVERNAME 

processed line 1 

[THU OCT 31 17:49:08 2013] [NOTICE] DIGEST: GENERATING SECRET FOR DIGEST 
AUTHENTICATION ... 

processed line 2 

[THU OCT 31 17:49:08 2013] [NOTICE] DIGEST: DONE 

processed line 3 


可 以 从 输出 中 看 到 ， 每 输出 一 行 大 写 的 文字 后 都 有 一 行 米 自主 程 
序 的 处 理 信 息 ， 绝 不 会 像 抢 占 式 的 多 线程 程序 那样 “ 乱 序 ”， 这 允 是 协 
程 的 * 协 ” 字 之 由 来 。Python 2.x 版 本 的 生成 如 无 法 实现 所 有 的 协 程 特 
是 因为 缺乏 对 协 程 之 间 复 杂 关 系 的 支持 。 比 如 一 个 yield 协 程 依赖 
一 个 yield 协 程 ， 旦 需要 由 最 外 层 往 最 内 层 进行 传 值 的 上 时候， 就 没有 
类 交 直 法 。 下 面 就 是 一 个 例子 :为 班级 编写 一 个 程序 ， 计 算 每 一 个 学 
生 的 各 科 总 分 ， 并 计算 班级 总 分 。 移 尝试 编写 以 下 函数 : 


>>> def accumulate( ) : 
tally = 0 
while 1: 
tally += (yield tally) 


考虑 到 不 同 的 班级 有 不 同 数量 的 科目 ， 不 同 的 班级 有 不 同 数量 的 
学 生 ， 所 以 编写 一 个 生成 右 进 行 计算 ， 它 能 根据 接收 到 的 数值 进行 计 
算 ， 无 须 预 先知 道 数量 。 现 在 想象 一 下 你 拿 到 了 学 生 的 各 科 成 绩 表 ， 
可 以 想象 出 它 是 一 个 二 维 表 ， 那 么 代码 大 概 如 下 : 


>>> 1 = [] 

>>> for s in students: 
一 | 
a = accumulate () 
a.next() 
for c in s: 

t = a.send(c) 

1.append(t) 

>>>t=0 

>>> a = accumulate () 

>>> a.next() 

>>> for s in 1: 

a t = a.send(s) 

>>> t 

325 


可 以 看 到 无 端 多 出 来 的 对 t 和 a 的 初始 化 操作 非常 刺眼 ， 不 过 代码 
总 算是 可 以 正 钟 工作。 如 果 你 尝试 想 把 它 封 装 成 一 个 用 以 计算 一 个 学 
生 总 分 的 函数 ， 会 更 加 别扭 (想象 一 下 在 accumulateO) 中 调用 其 自身 ， 
递归 生成 器 ? ) 。 这 个 问题 直到 Python 3.3 增 加 了 yield from 表 达 式 以 后 
才 得 以 解决 ， 通 过 yield from， 外 层 的 生成 辟 在 接收 到 send0 或 throw0) 
调用 时 ， 能 够 把 实 参 直接 传 入 内 层 生 成 右 。 应 用 到 本 例 当 中 ， 就 不 需 
要 定义 临时 容 絮 | 来 保存 每 一 个 学 生 的 成 绩 ， 代 码 复杂 性 下 降 许 多 。 下 
面 是 假定 accumulate 使 用 了 yield from 后 的 代码 : 


>>> a = accumulate () 
>>> a.next() 
>>>t=0 
>>> for s in students: 
A for klass in s: 
t += a.send(klass) 


看 这 个 和 代 套 循环 的 代码 是 不 是 简单 了 许多 ? 回 到 协 程 这 个 主题 ， 
为 Python 2.x 版 本 对 协 程 的 支持 有 限 ， 而 协 程 义 古 非 党 有 用 的 特性 ， 
所 以 很 多 Pythonista 束 开始 寻求 语言 之 外 的 解决 方案 ， 并 编写 了 一 系列 
的 程序 库 ， 其 中 最 受 欢 迎 的 莫 过 于 greenlet 。 


Ns 


greenlet 是 一 个 C 语 言 编写 的 程序 库 ， 它 与 yield 关 键 字 没有 密切 的 
关系 。greenlet 这 个 库 里 最 为 关键 的 一 个 类 型 惑 是 PyGreenlet 对 象 ， 它 
是 一 个 C 结 构 体 ， 每 一 个 PyGreenlet 都 可 以 看 到 一 个 调用 栈 ， 从 它 的 入 
口 函数 开始 ， 所 有 的 代码 都 在 这 个 调用 栈 上 运行 。 它 能 够 随时 记录 代 
码 运行 现场 ， 并 随时 中 止 ， 以 及 恢复 。 看 到 这 里 ， 可 以 发 现 它 跟 yield 
所 能 够 做 到 的 相似 ， 但 更 好 的 是 它 提供 从 一 个 PyGreenlet 切 换 到 另 一 个 
PyGreenlet 的 机 制 。 最 后 看 一 下 来 目 它 帮助 文件 的 一 个 例子 ， 以 便 对 它 
有 个 直观 的 印象 。 


from greenlet import greenlet 
def test1(): 

print 12 

gr2.switch() 

print 34 
def test2(): 

print 56 

gri.switch() 


gri = greenlet(test1) 
gr2 = greenlet(test2) 
gri.switch() 


最 后 一 行 跳 天 test1， 输 出 12， 跳 到 test2， 输 出 56， 跳 回 test1， 输 
出 34; 然后 test1 执 行 完 ，gr1 就 死 了 。 然 后 ， 最 初 的 gr1.switchO) 调 用 返 
回 ， 所 以 永远 也 不 会 输出 78 。 


协 程 虽然 不 能 充分 利用 多 核 ， 但 它 跟 异步 IO 结合 起 来 以 后 编写 
IO 密集 型 应 用 非常 容易 ， 能 够 在 同步 的 代码 表面 下 实现 异步 的 执行 ， 
其 中 的 代表 当 属 将 greenlet 与 libevenUlibev 结 合 起 来 的 gevent 程 序 库 ， 它 
是 当下 最 受 欢 迎 的 Python 网 络 编程 库 。 最 后 ， 以 使 用 gevent 并 发 查询 


DNS 的 例子 作为 结束 ， 使 用 它 进 行 并 发 查询 n 个 域名 ， 能 够 
倍 的 性 能 提升 。 


>>> 
>>> 
>>> 
>>> 
>>> 
>>> 


import gevent 

from gevent import socket 

urls = ['www.google.com', 'www.example.com', 'www.python.org'] 
jobs = [gevent.spawn(socket.gethostbyname, url) for url in urls] 
gevent .joinall(jobs, timeout=2) 

[job.value for job in jobs] 


['74.125.79.106', '208.77.188.166', '82.94.164.162'] 


获得 几 


平 n 


建议 68: 理解 GIL 的 局 限 性 


在 Python 多 线程 编程 中 ， 你 有 没有 遇 到 过 这 种 问题 : 多 线程 Python 
程序 运行 的 速度 比 只 有 一 个 线程 的 时 候 还 要 慢 ? 除了 程序 本 身 的 并 行 
性 之 外 ， 很 大 程度 上 与 GIL 有 关 。GIL 在 Python 中 是 一 个 很 有 争议 的 话 
题 ， 由 于 它 的 存在 ， 多 线程 编程 在 Python 中 似乎 并 不 理想 ， 为 什么 这 人 么 
说 呢 ? 先 来 了 解 一 人 下 GIL。GIL 被 称 为 为 全 局 解释 器 锁 (Global 
Interpreter Lock) ， 是 Python 虚拟 机 上 用 作 互 斥 线程 的 一 种 机 制 ， 它 的 
作用 是 保证 任何 情况 下 虚拟 机 中 只 会 有 一 个 线程 被 运行 ， 而 其 他 线程 
都 处 于 等 待 GIL 锁 被 释放 的 状态 。 对 于 有 LO 操作 的 多 线程 ， 其 线程 执 
行 状态 如 图 6-6 所 示 。 不 管 是 在 单 核 系统 还 是 多 核 系统 中 ， 始 终 只 有 一 
个 获得 了 GIL 锁 的 线程 在 运行 ， 每 次 过 到 I/O 操 作 便 会 进行 GIL 锁 的 释 
放 。 


但 如 果 是 纯 计 算 的 程序 ， 没 有 LO 操作 ， 解 释 器 则 会 根据 
sys.setcheckinterval 的 设置 来 目 动 进行 线程 间 的 切换 ， 默 认 情 况 下 每 隅 
100 个 时 钟 ( 注 : 这 里 的 时 钟 指 的 是 Python 的 内 部 时 钟 ， 对 应 于 解释 器 
执行 的 指令 ) 就 会 释放 GIL 锁 从 而 轮换 到 其 他 线程 的 执行 ， 示 意图 如 图 
6-7 所 示 。 


LO LO LO LO LO 


线程 1 --- 


获取 GIL 释放 GIL 获取 GIL | 释放 GIL 


图 6-6 ”Python 虚拟 机 中 IO 操作 中 GIL 的 变换 过 程 


释放 GIL 


获取 GIL 
无 IO 操作 线程 


100 个 时 钟 中 咯 


100 个 时 钟 100 个 时 钟 


喃 哄 咬 吹 


图 6-7“ 无 IO 操作 时 GIL 的 变换 过 程 


在 单 核 CPU 中 ，GIL 对 多 线程 的 执行 并 没有 太 大 影响 ， 因 为 单 核 上 
的 多 线程 本 质 上 就 是 顺序 执行 的 。 但 对 于 多 核 CPU， 多 线程 并 不 能 真 
正 发 挥 优势 市 来 效率 上 明显 的 提升 ， 攻 至 在 频 崇 IO 操作 的 情况 下 由 于 
存在 需要 多 次 释放 和 申请 GIL 的 情形 ， 歼 率 反而 会 下 降 。 那 么 ， 有 人 不 
茶会 器 Python 解释 右 中 为 什么 要 引入 GIL 呢 ? 来 思考 这 样 一 个 情形 : 
我 们 知道 Python 中 对 象 的 管理 与 引用 计数 器 密切 相关 ， 当 计数 絮 变 为 0 
的 时 候 ， 该 对 象 便 会 个 垃圾 回收 右 回 收 。 当 撤销 对 一 个 对 象 的 引用 
时 ，Python 解 释 器 对 对 和 象 以 及 其 计数 器 的 管理 分 为 以 下 两 步 : 


1) 使 引用 计数 值 减 1。 
2) 判断 该 计数 值 是 否 为 0， 如 果 为 0， 则 销毁 该 对 象 。 


假设 线程 A 和 B 同 时 引用 同一 个 对 象 obj， 这 时 obj 的 引用 计数 值 为 
2。 如 果 现 在 线程 A 打算 撤销 对 obj 的 引用 。 当 执行 完 第 一 步 的 时 候 ， 由 
于 存在 多 线程 调度 机 制 ，A 恰 好 在 这 个 关键 点 被 挂 起 ， 而 B 进 入 执行 状 
候 ， 如 图 6-8 所 示 。 但 不 幸 的 是 B 也 同样 做 了 撤销 对 obj 的 引用 的 动作 ， 
并 顺利 完成 了 所 有 两 个 步骤 ， 这 个 时 候 由 于 obj 的 引用 计数 器 为 0， 因 此 
对 象 被 销毁 ， 内 存 被 释放 。 但 如 果 此 时 A 再 次 被 唤醒 去 执行 第 二 步 操 作 
的 时 候 会 发 现 已 经 面目 全 非 ， 则 其 操作 绪 采 完全 未 知 。 


Obj.ref num -- #B 挂 起 
# 线 程 A 执 行 ，obj.ref num=1 obj.ref num--# 线 程 B 被 唤醒 进入 执行 状态 
#A 挂 起 If obj.ref num==0:# 此 时 条 件 成 立 


destory obj#obj 被 销毁 


ne . | ,.，、,，。 ”Free memory# 内 存 释 说 
[fobjref num==0:# 线 程 A 恢 复 ， 进 入 执行 状态 内 存 释放 


destory ob 并 此 时 obj 并 不 存在 ， 执 行 结果 未 知 


Free memory 


图 6-8 ”无 GIL 存 在 时 线程 的 同步 


鉴于 此 ， 在 Python 解 释 器 中 引入 了 GIL， 以 保证 对 虚拟 机 内 部 共享 
资源 访问 的 互 不 性 。GIL 的 引入 确实 使 得 多 线程 不 能 在 多 核 系 统 中 发 挥 
优势 ， 但 它 也 带 来 了 一 些 好 处 ， 大 大 简化 了 Python 线 程 中 共享 资源 的 管 
理 ， 在 单 核 CPU 上 ， 由 于 其 本 质 是 顺序 执行 的 ， 一 般 情 况 下 多 线程 能 
够 获得 较 好 的 性 能 。 此 外 ， 对 于 扩展 的 C 程 序 的 外 部 调用 ， 即 使 其 不 是 
线程 安全 的 ， 但 由 于 GIL 的 存在 ， 线 程 会 阻塞 直到 外 部 调用 函数 返回 ， 
线程 安全 不 再 是 一 个 问题 


多 核 CPU 已 经 成 为 一 个 常见 的 现象 ，GIL 的 局 限 性 限制 了 其 在 多 核 
CPU 上 发 挥 优势 ， 因 此 对 于 GIL 的 去 留 也 曾 引发 过 激烈 的 讨论 。Guido 
以 及 Python 的 开发 人 员 都 有 一 个 很 明确 的 解释 ， 那 就 是 去 抒 GIL 并 不 容 
易 。 实 际 上 在 1999 年 ， 针 对 Python1.5，Greg Stein 发 布 了 一 个 补丁 ， 该 
补丁 中 GIL 被 完全 移 除 ， 使 用 高 粒度 的 锁 来 代替 。 然 而 这 种 解决 方案 并 
没有 和 带 来 理想 的 效果 ， 多 核 多 线程 速度 的 提升 并 没有 随 着 核 数 的 增加 
而 线性 增长 ， 反 而 给 单线 程 程序 的 执行 速度 带 来 了 一 定 的 代价 ， 当 用 
单线 程 执 行 时 ， 速 度 大 约 降低 了 40%。 因 此 ， 这 种 方案 最 终 也 被 放弃 。 
在 Python3.2 中 重新 实现 了 GIL， 其 实现 机 制 主要 集中 在 两 个 方面 : 一 方 
面 是 使 用 固定 的 时 间 而 不 是 固定 数量 的 操作 指令 来 进行 线程 的 强制 切 
换 ， 另 一 个 方面 是 在 线程 释放 GIL 后 ， 开 始 等 待 ， 直 到 某 个 其 他 线程 获 


取 GIL 后 ， 再 开始 去 笑 试 获取 GIL， 这 样 虽然 可 以 避免 此 前 获得 GIL 的 
线程 ， 不 会 立即 再 次 获取 GIL， 但 仍然 无 法 保证 优先 级 高 的 线程 优先 获 
取 GIL。 这 种 方式 只 能 解决 部 分 问题 ， 并 未 改变 GIL 的 本 质 ，GIL 本 质 
上 的 改观 目前 并 没有 非常 明朗 的 前 景 。 不 过 也 不 需要 那么 悲观 ，Python 
提供 了 其 他 方式 可 以 绕 过 GIL 的 局 限 ， 比 如 使 用 多 进程 multiprocessing 
模块 或 者 采用 C 语 言 扩展 的 方式 ， 以 及 通过 ctypes 和 C 动 态 库 来 充分 利 
用 物理 内 核 的 计算 能 


建议 69: 对 象 的 管理 与 垃圾 回收 


通常 来 说 Python 并 不 需要 用 户 目 己 来 管理 内 存 ， 它 与 Perl、Ruby 
等 很 多 动态 语言 一 样 具备 垃圾 回收 功能 ， 可 以 目 动 管理 内 存 的 分 配 与 
回收 ， 而 不 需要 编程 人 员 的 介入 。 那 么 这 样 古 不 是 意味 着 用 户 可 以 高 
枕 无 优 了 呢 ? 我 们 来 看 下 面 一 个 例子 : 


class Leak(object): 
ef _ init__(self): 
print "object with id %d was born" %id(self) 
while(True): 


A = Leak() 
B = Leak() 
A,b = B 
B.a = A 
A = None 
B = None 


运行 上 述 程序 我 们 会 发 现 ，Python 进 程 的 内 存 消耗 量 一 直 在 持续 
增长 ， 到 最 后 出 现 内 存 耗 光 的 情况 。 这 是 什么 原因 造成 的 呢 ? 


我 们 先 来 简单 谈 谈 Python 中 内 存 管 理 的 方式 ，Python 使 用 引用 计 
数 器 (Reference counting) 的 方法 来 管理 内 存 中 的 对 象 ， 即 针对 每 一 
个 对 象 维护 一 个 引用 计数 值 来 表示 该 对 象 当 前 有 多 少 个 引用 。 当 其 他 
对 象 引 用 该 对 象 时 ， 其 引用 计数 会 增加 1， 而 删除 一 个 对 当前 对 象 的 引 
用 ， 其 引用 计数 会 减 1。 只 有 当 引 用 计数 的 值 为 0 的 时 候 该 对 象 才 会 被 
垃圾 收集 器 回收 ， 因 为 它 表 示 这 个 对 象 不 再 被 其 他 对 象 引 用 ， 是 个 不 
可 达 对 象 。 引 用 计数 算法 最 明显 的 缺点 是 无 法 解决 循环 引用 的 问题 ， 
即 两 个 对 象 相互 引用 。 上 述 代 码 中 正 是 由 于 形成 了 A、B 对 象 之 间 的 循 
环 引 用 而 造成 了 内 存 泄露 的 情况 ， 因 为 两 个 对 象 的 引用 计数 器 都 不 为 
0， 该 对 象 并 不 会 被 垃圾 收集 器 回收 ， 而 无 限 循 环 导致 一 直 在 申请 内 存 
而 没有 释放 ， 所 以 最 后 出 现 了 内 存 耗 光 的 情况 。 


循环 引用 常常 会 在 列表 、 元 组 、 字 典 、 实 例 以 及 函数 使 用 时 出 
现 。 对 于 由 循环 引用 而 导致 的 内 存 泄露 的 情况 ， 有 没有 办 法 进行 控制 
和 管理 呢 ? 实际 上 Python 目 融 了 一 个 gc 模块 ， 它 可 以 用 来 跟踪 对 象 
的 “入 引用 (incoming reference) ”和 “出 引用 (outgoing reference) ”， 
并 找 出 复杂 数据 结构 之 间 的 循环 引用 ， 同 时 回收 内 存 垃圾 。 有 两 种 方 
式 可 以 触发 垃圾 回收 : 一 种 是 通过 显 式 地 调用 gc.collect0) 进 行 垃圾 回 
收 ; 还 有 一 种 是 在 创建 新 的 对 象 为 其 分 配 内 存 的 时 候 ， 检 查 threshold 
出 值 ， 当 对 象 的 数量 超过 threshold 的 时 候 便 自动 进行 垃圾 回收 。 默 认 
情况 下 网 值 设 为 (700,10,10)， 并 且 gc 的 目 动 回收 功能 是 开启 的 ， 这 些 
可 以 通过 gc.isenabled() 查 看 。 下 面 是 gc 模块 使 用 的 简单 例子 : 


>>> import gc 

>>> print gc.isenabled() 
True 

>>> gc.isenabled() 

True 

>>> gc.get_threshold() 
(700, 10, 10) 


对 于 本 广 开 头 的 例子 ， 我 们 使 用 gc 模块 来 进行 垃圾 回收 ， 代 码 如 
长 


def main(): 
collected = gc.collect() 
print "Garbage collector before running: collected %d objects." % (collected) 
print "Creating reference cycles..." 


A = Leak() 
B = Leak() 
A.b=B 
B.a = A 
A = None 
B = None 


collected = gc.collect() 

pprint.pprint( gc.garbage) 

print "Garbage collector after running: collected %d objects." % (collected) 
if name == ”main _" 

ret = main() 

sys.exit(ret) 


运行 程序 输出 结果 如 下 : 


Garbage collector before running: collected 0 objects. 
Creating reference cycles... 

object with id 14109584 was born 

object with id 14109648 was born 


[] 
Garbage collector after running: collected 4 objects. 


gc.garbage 返 回 的 是 由 于 循环 引用 而 产生 的 不 可 达 的 垃圾 对 象 的 列 
表 ， 输 出 为 空 表示 内 存 中 此 时 不 存在 垃圾 对 象 。gc.collectO 显 示 所 有 收 
集 和 销毁 的 对 象 的 数目 ， 此 处 为 4 (2 个 对 象 A、B， 以 及 其 实例 属性 
dict) 。 


我 们 再 来 考虑 一 个 问题 : 如 果 我 们 在 类 Leak 中 应 加 析 构 方法 
del _0， 对 和 象 的 销毁 形式 和 内 存 回 收 的 情况 是 否 有 所 不 同 。 示 例 代 
码 如 下 : 


def _ del (self): 
print "object with id %d was destoryed" %id(self) 


当 加 入 了 析 构 方法 _del_ 0 在 运行 程序 的 时 候 会 发 现 gc.garbage 的 
输出 不 再 为 空 ， 而 是 对 象 A、B 的 内 存 地 址 ， 也 束 是 说 这 两 个 对 象 在 内 
存 中 仍然 以 “垃圾 ”的 形式 存在 。gc.garbag() 输 出 如 下 : 


[<__ main .Leak object at QOx0O0D72BFO>, <_ main .Leak object at 0x00D72C30>] 


这 是 什么 原因 造成 的 呢 ? 实际 上 当 存 在 循环 引用 并 且 当 这 个 环 中 
存在 多 个 析 构 方法 时 ， 垃 圾 回收 紫 不 能 确定 对 象 析 构 的 顺序 ， 所 以 为 
了 安全 起 见 仍 然 保 持 这 些 对 象 不 被 销毁 。 而 当 环 被 打破 时 ，gc 在 回收 
对 象 的 时 候 便 会 再 次 自动 调用 del (方法 。 读 者 可 以 自行 试验 。 


gc 模块 同时 支持 DEBUG 模 式 ， 当 设置 DEBUG 模 式 之 后 ， 对 于 循 
环 引 用 造成 的 内 存 泄 露 ，gc 并 不 释放 内 存 ， 而 是 输出 更 为 详细 的 诊断 
言 忌 为 发 现 内 存 港 露 提 供 便利 ， 从 而 方便 程序 员 进 行 修 复 。 更 多 gc 模 


块 的 使 用 方法 读者 可 以 参考 文档 : 
http:/docs.python.org/2/library/gc.html。 


第 7 革 使 用 工具 辅助 项 目 开发 


Python 项 目的 开发 过 程 ， 其 实 丈 是 一 个 或 多 个 包 的 开发 过 程 ， 而 
这 个 开发 过 程 又 由 包 的 安装 、 管 理 、 测 试 和 发 布 等 多 个 下 点 构成 ， 所 
以 这 是 一 个 复杂 的 过 程 ， 使 用 工具 进行 辅助 开发 有 利于 减少 流程 损 
耗 ， 提 升 生产 力 。 本 章 将 介绍 几 个 常用 的 、 先 进 的 工具 ， 比 如 
setuptools、pip、Ppaster、nose 和 Flask-PyPI-Proxy 等 ， 这 些 工 具 洱 盖 了 
项 目 开 发 中 的 几 大 和 节点， 掌握 它 们 能 够 让 读者 在 将 来 的 项 目 开 发 中 达 
到 事半功倍 的 效果 。 


建议 70: 从 PyPI 安 装 包 


PyPI 全 称 Python Package Index， 直 详 过 来 就 是 “Python 包 索 31”， 它 
是 Python 编 程 语言 的 软件 仓库 ， 类 似 Perl 的 CPAN 或 Ruby 的 Gems， 目 前 
已 经 有 将 近 35?000 个 软件 和 库 (统称 为 包 ) 提交 到 上 面 。 既 然 名 字 中 
之 有 “索引 ”一 调 ， 顾 名 思 义 ， 可 以 通过 包 的 名 字 查 找 、 下 载 、 安 装 PyPI 
上 的 包 。 对 于 包 的 作者 ， 在 PyPI 上 注册 账号 后 ， 还 可 以 登记 、 更 新 、 
上 传 包 等 。 


PyPI 有 恨 好 的 镜像 机 制 ， 可 以 方便 地 在 全 球 各 地 架设 目 有 镜像 ， 
目前 可 用 的 几 个 镜像 列 出 在 PyPI Mirrors 页 面 上 ， 而 各 个 镜像 的 同步 情 
况 可 以 在 专门 的 网 站 上 看 到 。 因 为 访问 外 国 网 站 普 所 比较 慢 ， 为 了 方 
便 众 多 的 Python 程序 员 ， 豆 办 网 架设 了 一 个 镜像 ， 地 址 是 
http:/pypi.douban.com， 访 问 速度 很 快 ， 推 荐 使 用 (具体 的 使 用 方法 见 
easy_install/pip 的 --index 参 数 ) 。 


某 日 ， 你 在 邮件 列表 里 看 到 有 人 推荐 requests， 写 得 非常 炉 情 ， 让 
你 相当 有 兴趣 想 要 试 一 试 这 个 号 称 “ 更 适合 给 人 用 ”的 HTTP 客 户 剖 库 ， 
那么 可 以 打开 你 的 浏 喃 右 ， 并 导航 到 PyPI， 在 右上 角 输 入 reuqests 然 后 
单 击 搜索 按钮 ， 如 图 7-1 所 示 。 


® python 


» Package Index 


PACKAGE INDEX PyPI - the Python Package Index 
Browse packages Login 
Package submission The Python Package Index S a repository of software for the Python Reaister 
List trove classifiers programming language. There are currently 34698 packages here. Lost Login? 
List packages To contact the PyPl admins, please use the Support or Bug reports Use OpeniD 国 合 1! 


RSS (latest 40 updates) links. 
RSS (newest 40 packages) 


Python 3 Packages Package documentation ls now at 


PyPI Tutorial pythonhosted.org 
PyPIl Secunty 


PyPI Support Package documentation ls hosted on Is own domain 
PyPl Bug Reports pythonhosted.org (lt was al packages python org 
PyP! Discussion and that domain will still work and automatically 

PyPI Developer info redirect to the new documentation home ) 


图 7-1 PyPI 首 页 


接 下 来 浏览 右 将 会 显示 搜索 结果 列表 ， 从 中 找到 名 为 requests 的 项 
目 ， 打 开 以 后 页 面 的 上 半 部 分 是 requests 的 简要 文档 ， 往 下 拉 可 以 看 到 
它 的 下 载 链 接 ， 单 击 后 下 载 保存 ， 然 后 进入 下 载 目 未 ， 执 行 tar 解 压 
缩 。 


:~# tar zxvf requests-1.2.3.tar.gz 


然后 进入 requests-1.2.3 日 录 安 装 。 


:~# cd requests-1.2.3 
:~/requests-1.2.3# python setup.py install 


Python setup.py install 命 令 将 把 requests 库 安装 到 Python 的 库 目 录 


因为 包 在 PyPI 上 的 主页 的 URL 都 是 
https://pypi.python.org/pypi/{package} 的 形式 ， 所 以 在 知道 包 和 名 的 情况 


下 ， 束 手 一 般 并 不 使 用 搜索 功能 ， 而 是 直接 手动 输入 URL 。 


显然 ， 手 动 安装 包 实 在 是 太太 烦 了 ， 查 找 、 下 载 、 解 压 、 安 装 整 
个 流程 完全 可 以 目 动 化 。 爱 好 偷懒 的 Pythonista 目 然 编 写 好 了 工具 供 大 
家 使 用 ， 其 中 setuptools 尤 其 值得 优先 推荐 给 大 家 。 在 Ubuntu Linux 上 ， 
可 以 使 用 apt 安 装 这 个 包 。 


sudo aptitude instal1 python-setuptools 


其 他 操作 系统 大 同 小 异 ， 运 行 其 相应 的 包 管 理 软件 就 可 安装 。 但 
如 果 你 使 用 MS Windows， 则 需要 去 它 的 主页 
(https://pypi.python.org/pypi/setuptools) 下 载 ， 然 后 手动 安装 。 


操作 系统 对 应 的 软件 仓库 中 的 setuptools 版 本 通常 比较 低 ， 所 以 安 
装 完 成 以 后 ， 最 好 执行 以 下 命令 将 其 更 新 到 最 新 版 本 : 


easy_install -U setuptools 


setuptools 是 来 自 PEAK (Python Enterprise Application Kit， 一 个 致 
力 于 提供 Python 开 发 企业 级 应 用 工具 包 的 项 目 ) ， 由 一 组 发 布 工 具 组 
成 ， 方 便 程 序 员 下 载 、 构 建 、 安 装 、 升 级 和 御 载 Python 包 ， 因 为 它 可 以 
目 动 处 理 包 的 依赖 天 系 ， 所 以 深 受 大 家 的 喜爱 。 


因为 PEAK 最 近 几 年 发 展 停 沿 ， 累 及 setuptools 也 有 好 几 年 没有 更 
新 。 所 以 有 些 程序 员 重 新 创建 了 一 个 分 支 项 目 ， 称 为 distribute， 受 到 
了 大 家 的 喜爱 。 在 很 长 一 段 时 间 里 ， 运 行 easy_install -U setuptools 更 新 


的 时 候 ， 安 装 的 其 实 是 distribute。 但 是 ， 在 2013 年 年 初 ，distribute 合 
并 到 setuptools， 分 支 ， 并 发 布 了 setuptools 0.7 版 本 。 随 后 几 个 
月 频繁 发 布 大 版 本 ， 至 2013 年 9 月 ， 最 新 的 版 本 已 经 是 1.1.5 版 ， 而 
distribute 项 目 也 束 不 再 维护 了 。 


安装 setuptools 之 后 ， 就 可 以 运行 easy_install 命 令 了 。 


# easy_install requests 

Searching for requests 

Reading https://pypi. Dy nn org/simple/requests/ 

Best match: requests 1.2. 

Downloading 

https://pypi.python.org/packages/source/r/requests/requests- 
1.2.3,tar.gzt#md5=adbd3f18445f7fe5e77f65c502e264fb 

Processing requests-1.2.3.tar ,gz 

Writing /tmp/easy_install-vwjYKV/requests-1.2.3/setup.cfg 

Running requests-1.2.3/setup.py -q bdist egg --dist-dir 
/tmp/easy_install-vwjYKV/requests-1.2.3/egg-dist-tmp-MeMFX1 

Adding requests 1.2.3 to easy-install.pth file 

Installed /usr/local/lib/python2.6/dist-packages/requests-1.2.3-py2.6.egg 

Processing dependencies for requests 

Finished processing dependencies for requests 


这 就 是 使 用 setuptools 安 装 requests 的 过 程 ， 可 以 从 输出 中 看 到 
easy_install 能 够 查找 到 最 新 版 本 的 包 ， 然 后 进行 下 载 、 安 装 ， 比 手动 安 
法要 简单、 方便 得 多 


setuptools 的 功能 非常 丰富， 包括 对 Python 包 的 构建 、 测 试 、 发 布 
等 都 文 持 得 很 好 ， 这 些 功 能 将 在 后 续 的 几 市 中 讲述 。 


建议 71: 使 用 pip 和 yolk 安 装 、 管 理 包 


setuptools 有 几 个 缺点 ， 比 如 功能 缺失 (不 能 查看 已 经 安装 的 包 、 
不 能 删除 已 经 安装 的 包 ) ， 也 缺乏 对 git、hg 等 版 本 控制 系统 的 原生 支 
持 ， 所 以 致力 于 做 easy_install 改 进 版 的 pip 在 最 近 几 年 大 受 欢 迎 ， 成 为 
了 最 流行 的 Python 包 管 理工 具 。 


在 安装 了 setuptools 以 后 ， 安 闭 pip 束 非常 简单 了 。 


easy_install pip 


pip 使 用 子 命令 形式 的 CLI 接 口 ， 首 先 要 学 习 的 当然 是 help 。 


# pip help 
Usage: 
pip <command> [options] 
Commands : 
install Install packages. 
uninstall Uninstall packages. 
freeze Output installed packages in requirements format. 
list List installed packages. 
show Show information about installed packages. 
search Search PyPI for packages. 
wheel Build wheels from your requirements. 
zip Zip individual packages. 
unzip Unzip individual packages. 
bundle Create pybundles. 
help Show help for commands. 


General Options: 


从 子 命令 可 以 对 pip 的 功能 有 个 大 体 的 了 解 ， 也 可 以 使 用 pip help 
<command> 命 令 查 看 子 命令 的 帮助 信息 。Install、uninstall 就 是 用 得 最 
多 的 安装 与 卸载 功能 ，list 可 以 列 出 已 经 安装 的 包 ， 对 感 兴趣 的 包 可 以 
使 用 show 命 令 查 看 它 的 具体 情况 。 下 面 我 们 重点 了 解 一 下 这 4 个 命 


令 。 


# pip install requests 

Downloading/unpacking requests 
Downloading requests-1.2.3.tar.gz (348kB): 348kB downloaded 
Running setup.py egg_info for package requests 

Installing collected packages: requests 
Running setup.py install for requests 

Successfully installed requests 

Cleaning up... 


可 以 看 到 pip 的 install 命 令 使 用 起 来 跟 easy_install 类 似 ， 但 输出 要 人 简 


洁 得 多 。 然 后 再 看 看 uninstal] 命 令 。 


# pip uninstall requests 
Uninstalling requests: 
/usr/local/lib/python2.6/dist-packages/requests-1.2.3-py2.6.egg 
Proceed (y/n)? y 
Successfully uninstalled requests 


删除 包 时 ，pip 需 要 输入 y 进 行 确认 ， 然 后 下 可 以 删除 干净 了 。 
下 面 我 们 来 看 一 段 代码 : 


# python 
Python 2.6.5 (r265:79063, Oct 1 2012, 22:04:36) 
[GCC 4.4.3] on linux2 
Type "help", "copyright", "credits" or "license" for more information. 
>>> import requests 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
ImportError: No module named requests 


看 ， 找 不 到 名 为 requests 的 模块 。 当 然 ， 我 们 也 可 以 用 list 命 令 来 确 
认 。 


# pip list 

argparse (1.2.1) 
Cheetah (2.0.1) 
docutils (0.9) 

Flask (0.9) 
Flask-RESTful (0.2.1) 
FormEncode (1.2.2) 
gevent (0.13.0) 
GnuPGInterface (0.3.2) 
greenlet (0.3.2) 
hello-prj (0.0dev) 
Jinja2 (2.6) 


# pip list | grep requests 


安装 的 包 实在 太 多 了 ， 不 容易 验证 是 否 已 删除 ， 者 使 用 grep 命 令 
帮助 查找 的 结果 为 空 ， 则 requests 包 已 经 删除 干净 了 。list 子 命令 还 可 以 
单独 列 出 有 新 版 本 的 包 (使 用 --outdated 参 数 ) 和 已 安装 最 新 版 本 的 包 

(使 用 --uptodate 参 数 ) 。 男 外 ， 想 要 进一步 了 解 比 较 感 兴趣 的 模块 ， 
可 以 使 用 show 命 令 。 比 如 查看 一 下 Flask 的 信息 。 


# pip show Flask 


Name: Flask 

Version: 0.9 

Location: /usr/local/lib/python2.6/dist-packages/Flask-0.9-py2.6.egg 
Requires: Werkzeug, Jinja2 


名 字 、 版 本 、 安 狠 路 人 径 和 依赖 信息 一 样 不 缺 ， 这 对 我 们 了 解 应 用 
程序 的 运行 环境 非常 有 用 。 


pip list 虽 然 能 够 列 出 已 经 安 闻 的 包 ， 但 使 用 上 仍然 稍 有 不 便 ， 这 
就 是 yolk 存 在 的 意义 。yolk 专 注 于 控 握 已 经 安 闭 的 Python 包 的 信息 及 
PyPI 上 的 包 的 信息 。 


yolk 与 piplist 功 能 重复 的 部 分 是 yolk {-l|-U}，-1 和 -U 这 两 参数 分 别 
用 来 显示 已 安装 的 所 有 包 和 可 以 更 新 的 包 ， 在 此 就 不 再 介绍 了 。 下 面 
介绍 的 是 pip 还 不 具备 的 功能 。 


# yolk --entry-map nose 
{'console_scripts': {'nosetests': EntryPoint.parse('nosetests = nose: 
run_exit'), 
'nosetests-2.6': EntryPoint.parse('nosetests-2.6 = 
nose:run_exit"')}, 
'distutils.commands': {'nosetests': EntryPoint.parse('nosetests = nose. 
commands:nosetests' )}} 


yolk--entry-map <package> 可 以 显示 包 注 册 的 所 有 人 入口 点 ， 这 样 可 
以 了 解 到 安装 的 包 都 提供 了 哪些 命令 行 工具 ， 或 者 文 持 哪 些 基于 entry- 
point 的 插件 系统 。 上 例 中 ，nose 提 供 了 nosetests 命 令 并 实现 了 
distutils.commands 插 件 〈 即 python setup.py nosetests 扩 展 命 令 ) 。 那 么 
如 何 查 看 有 哪些 包 实现 了 某 一 个 包 的 插件 协议 呢 ? --entry-points 参 数 可 
以 帮 到 你 。 


# yolk --entry-points abu.admin 
read_and_display.admin 

read_and display = read_and display.admin:Admin 
caihui.bs.admin 

caihui.bs = caihui.bs.admin:Admin 


可 以 看 到 ， 支 持 abu.admin 插 件 协 议 的 包 有 了 两 个 : read_and_distplay 
和 caihui.bs， 它 们 的 入 口 点 名 字 分 别 是 read_and_display.admin 利 
caihui.bs.admin。 怎么 样 ， 是 不 是 对 自己 机 器 上 安装 了 的 包 有 了 更 深刻 
的 理解 ? 


最 后 ， 如 果 你 使 用 的 是 捆 面 版 的 操作 系统 ， 利 用 yolk-H<package> 
可 以 打开 一 个 浏览 郁 ， 并 将 你 指定 的 包 显 示 在 PYPI 上 的 主页 ， 从 此 告 
别 手动 拼接 URL 的 历史 。 当 然 ，yolk 还 有 更 多 的 功能 可 通过 阅读 它 的 
手册 逐步 发 掘 。 


建议 72: 做 paster 创 建 包 


如 膝 有 一 个 小 程序 ， 或 者 很 们 单一 个 库 ， 举 个 例子 ， 假 定编 写 了 
一 个 四 则 运算 的 库 。 


def add(x, y): 
return x+y 

def division(x, y): 
return x/y 

def multiply(x, y): 
return x * 

def subtract(x, y): 
return x -y 


可 以 把 代码 保存 到 一 个 名 为 arithmetic.py 的 文件 中 ， 然 后 复制 到 需 
要 的 文件 目 永 中 以 备 使 用 。 比 如 在 一 个 简单 的 计算 项 目 中 ， 我 们 可 以 
这 样 使 用 刚 编 好 的 库 : 


import arithmetic 

print arithmetic.add(5, 8) 

print arithmetic.subtract(10, 5) 
print arithmetic.division(2, 7) 
print arithmetic.multiply(12, 6) 


如 果 只 是 个 人 项 目 ， 或 者 很 小 的 团队 协作 ， 这 种 做 法 问题 不 大 。 
但 如 果 团 队 比较 大 ， 束 有 几 个 问题 : 


1) 程序 的 发 布 。 如 果 版 本 更 新 了 ， 如 何 快速 地 发 布 给 团队 中 的 所 
有 人 。 


2) 保证 版 本 同步 。arithmetic.py 不 带 有 任何 版 本 信息 ， 不 利于 团 
队 成 员 目 检 版 本 。 


显然 ， 这 个 四 则 运算 程序 库 最 好 是 像 之 前 讨论 过 的 requests 之 类 的 
优秀 的 第 三 方 库 一 样 ， 可 以 方便 地 下 载 、 安 装 、 升 级 、 季 载 ， 也 束 是 
说 能 够 放 到 PyPI 上 面 ， 也 能 够 很 好 地 跟 pip 或 yolk 这 样 的 工具 集成 。 
Python 作为 “上 自 带电 池 ” 的 高 级 语言 ， 上 自然 提供 了 这 方面 的 文 持 ， 那 惑 
是 distutils 标 准 库 。distutils 标 准 库 至 少 提供 了 以 下 几 方面 内 容 : 


1) 支持 包 的 构建 、 安 装 、 发 布 (打包 ) 。 
2) 支持 PyPI 的 登记 、 上 传 。 


3) 定义 了 扩展 指令 的 协议 ， 包 括 distutils.cmd.Command 基 类 、 
distutils.commands 和 distutils.key_words 等 入 口 点 ， 为 setuptools 和 pip 等 
提供 了 基础 设施 。 


要 使 用 distutils， 按 习惯 需要 编写 一 个 setup.py 文 件 ， 作 为 后 续 操 作 
的 入 口 点 。 在 arithmetic.py 同 层 目 录 ， 建 立 一 个 setup.py 文 件 。 


# tree . 


伍 arithmetic.py 
setup.py 


它 的 内 容 如 下 : 


from distutils,core import setup 

setup(name='arithmetic', 
version='1.0', 
py_modules=['arithmetic ']， 


一 眼 就 可 以 看 出 ，setup.py 文 件 的 意义 是 执行 时 调用 
distutils.core.setup(0) 汞 数 ， 而 实 参 是 通过 命名 参数 指定 的 。name 参 数 指 
定 的 是 包 名 ; version 指 定 版 本 ; 而 py_modules 参 数 是 一 个 序列 类 型 ， 
里 面包 含 需要 安装 的 Python 文件 ， 在 本 例 中 即 为 arithmetic.py。 


编写 好 setup.py 文 件 以 后 ， 束 可 以 使 用 python setup.py install 把 它 安 
闭 到 系统 中 了 。 


# python setup.py install 

running install 

running build 

running build_py 

creating build 

creating build/1lib.1linux-x86_64-2.6 

copying arithmetic.py -> build/lib.1linux-x86_64-2.6 

running install lib 

copying build/1lib.]linux-x86_64-2.6/arithmetic.py -> /usr/local/lib/python2.6/ 
dist-packages 

byte-compiling /usr/local/lib/python2.6/dist-packages/arithmetic.py to 
arithmetic.pyc 

running install egg_info 

Writing /usr/local/lib/python2.6/dist-packages/arithmetic-1.0.egg-info 


安装 成 功 后 ， 我 们 来 试 一 下 。 


# python 
>>> import arithmetic 
>>> dir(arithmetic) 


['_ builtins ', '_doc ', '_file ', '_name ', '_ package ', 'add', 
'division', 'multiply', 'subtract'] 

>>> arithmetic.add(1, 2) 

3 


完全 符合 预期 啊 ! 接 下 来 再 用 yolk 但 看 一 下 。 


# yolk -1 | grep arithmetic 
arithmetic - 1.0 - active development (/usr/local/lib/python2.6/ 
dist-packages) 


可 以 看 到 它 的 确 跟 其 他 的 Python 一 标 伺 安 排 到 了 系统 当中 。 除 了 
install 命 令 以 外 ，distutils 还 带 有 其 他 命令 ， 可 以 通过 python setup.py-- 
help-commands 进 行 查 询 。 


# python setup.py --help-commands 
Standard commands: 


build build everything needed to install 
build_py "build" pure Python modules (copy to build directory) 
build_ext build C/C++ extensions (compile/link to build directory) 


build_clib build C/C++ libraries used by Python extensions 


build_scripts 
clean 

install 
install 1ib 
install_ headers 
install_scripts 
install data 
sdist 


"build" scripts (copy and fixup #! line) 

clean up temporary files from 'build' command 

install everything from build directory 

install all Python modules (extensions and pure Python) 
install C/C++ header files 

install scripts (Python or otherwise) 

install data files 


create a source distribution (tarball, zip file, etc.) 


register register the distribution with the Python package index 
bdist create a built (binary) distribution 
bdist_dumb create a "dumb" built distribution 
bdist_rpm create an RPM distribution 
bdist_ wininst create an executable installer for MS Windows 
upload upload binary package to PyPI 
usage: setup.py [global opts] cmd1 [cmd1 opts] [cmd2 [cmd2_opts] ...] 


or: setup.py 
or: setup.py 
or: setup.py 


--help [cmd1 cmd2 ...] 
--help-commands 
cmd --help 


在 这 里 ， 束 只 讲述 install 指 令 ， 其 他 指令 ， 比 如 sdist 、register 、 
upload 将 在 建议 78 中 讲述 ， 而 其 他 更 多 指令 ， 请 参考 distutils 的 文档 。 


arithmetic 只 是 一 个 示例 性 的 小 项 目 ， 所 以 setup.py 文 件 非常 简单 。 
实际 上 者 要 把 包 提 区 到 PyPI， 还 需要 遵循 PEP 241， 给 出 足够 多 的 元 炎 
据 才 行 ， 比 如 对 包 的 简短 描述 、 详 细 摘 述 、 作 者 、 作 者 邮箱 、 主 页 和 
授权 方式 等 。 比 如 requests 的 setup.py 文 件 中 调用 setupO 玉 数 时 就 包含 以 
下 内 容 : 


Setup( 
name='requests', 
version=requests. version , 
description='Python HTTP for Humans."', 
long_description=open('README.rst').read() + '\n\n' + 
open( 'HISTORY.rst').read(), 
author='Kenneth Reitz', 
author_email='me@kennethreitz.com', 
url='http://python-requests.org', 
packages=packages, 
package_data={'': ['LICENSE', 'NOTICE'], 
package_dir={'requests': 'requests'}, 
include_package_data=True, 
install_requires=requires, 
license=open('LICENSE').read(), 
zip_safe=False, 
classifiers=( 
'Development Status 
"Intended Audience :: Developers', 
'Natural Language :: English', 
"License :: OSI Approved :: Apache Software License', 
"Programming Language :: Python', 
"Programming Language :: Python :: 2.6', 
"Programming Language :: Python :: 2.7', 
"Programming Language :: Python :: 3', 


'requests': ['*.pem']}, 


: 5 - Production/Stable', 


"Programming Language :: Python :: 3.3'， 


包含 太 多 内 容 了 ， 如 果 每 一 个 项 目 都 手写 ， 肯 定 记 不 清楚 ， 所 以 
最 好 找 一 个 工具 可 以 自动 创建 项 目的 setup.py 文 件 以 及 相关 的 配置 、 目 
录 等 。Python 中 做 这 种 事 的 工具 有 好 几 个 ， 但 做 得 最 好 的 是 
pastescript。pastescript 是 一 个 有 着 民 好 插件 机 制 的 命令 行 工 具 ， 安 装 
以 后 惑 可 以 使 用 paster 命 令 ， 创 建 适用 于 setuptools 的 包 文件 结构 。 


首先 需要 安装 pastescript 。 


pip install pastescript 


安装 以 后 可 以 看 到 它 注 册 了 一 个 命令 行 入 口 paster (还 有 许多 插件 
协议 的 实现 ， 关 于 插件 协议 实现 的 具体 内 容 不 属于 本 节 讨 论 范 围 ， 
此 此 处 不 做 深入 探讨 ) 。 
# yolk --entry-map pastescript 


{'console_scripts': {'paster': EntryPoint.parse('paster = paste.script. 
command:run')}, 


接 下 来 学 习 一 下 paster 怎 么 用 〈 因 为 本 节 专 注 于 讲述 包 的 创建 ， 所 
以 略 去 了 无 关 的 输出 ) 。 


# paster --help 
Usage: paster [paster_options] COMMAND [command_options]... 


Commands : 
create Create the file layout for a Python distribution 


help Display help 


paster 文 持 多 个 命令 ， 现 在 首先 要 学 习 的 就 是 create。create 命 令 用 


于 根据 模板 创建 一 个 Python 包 项 目 ， 创 建 的 项 目 文件 结构 可 以 使 用 


setuptools 直 接 构 建 ， 并 且 支 持 setuptools 扩 展 的 distutils 命 令 ， 如 develop 
命令 等 。 接 下 来 看 一 下 它 的 帮助 〈 略 去 与 本 节 无 关 的 参数 ) 。 


# paster help create 
Usage: /usr/bin/paster create [options] PACKAGE_ NAME [VAR=VALUE VAR2=VALUE2 ...|] 


Options: 
-t TEMPLATE, --template=TEMPLATE 
Add a template to the create process 


--]list-templates List all templates available 


--Config=CONFIG Template variables file 


并 template 参 数 用 以 指定 使 用 的 模板 。 那 么 又 有 哪些 模板 可 
以 使 用 呢 ? 这 就 需要 先 用 --list-templates 查 询 一 下 目前 安装 的 模板 了 。 


# paster create --list-template 

Available templates: 
basic_package: A basic setuptools-enabled package 
paste_deploy: A web application deployed through paste.deploy 


如 果 一 个 全 新 的 环境 只 安装 好 了 paster， 那 么 一 般 只 有 两 个 模板 : 
basic_package 和 paste_deploy， 在 这 一 广 ， 只 需要 关注 前 者 。 


# paster create -0 arithmetic-2 -t basic_package arithmetic 
Selected and implied templates: 
PasteScript#basic_ package A basic setuptools-enabled package 
Variables: 
egg: arithmetic 
package: arithmetic 
project: arithmetic 
Enter version (Version (like 0.1)) ['']: 0.0.1 
Enter description (One-line description of the package) ['']: first paster prj 
Enter long_description (Multi-line description (in reST)) ['']: first paster 
prj long sdescriptoin 
Enter keywords (Space-separated keywords/tags) ["'']: 
Enter author (Author name) ['']: lyh 
Enter author_email (Author email) ['']: lyh@example.com 
Enter url (URL of homepage) ['']: http://code.example.com/arithmetic 
Enter license name (License name) ['']: MIT 
Enter zip_safe (True/False: if the package can be distributed as a .zip file) 
[Falsel]: 
Creating template basic package 
Creating directory arithmetic-2/arithmetic 


Running /usr/bin/python setup.py egg_info 


可 以 看 到 ， 人 简单 地 填写 几 个 问题 以 后 ，paster 束 在 arithmetic-2 目 录 
生成 了 名 为 arithmetic 的 包 项 目 。 它 的 文件 结构 如 下 : 


# tree arithmetic-2/ 
arithmetic-2/ 
-一 arithmetic 
FF 一 arithmetic 


~ init .py 
FF 一 arithmetic.egg-info 


FF 一 dependency_links.txt 
FF 一 entry_points ,七 Xt 

FF 一 not-zip-Ssafe 

FF 一 PKG-INFO 

FF 一 SOURCES.txt 


— top_level.txt 
| 一 docs 


— license.txt 
Co setup.cfg 
-一 setup.py 


然后 再 看 一 下 我 们 最 为 关注 的 setup.py 文 件 。 


# cat arithmetic-2/arithmetic/setup.py 

from setuptools import setup, find_packages 

import sys, os 

version = '0.0.1" 

setup(name='arithmetic', 
version=version, 
description="first paster prj", 
long_description="""\ 

first paster prj long sdescriptoin""", 
classifiers=[], # Get strings from http://pypi.python.org/pypi? % 3 

Aaction=]list_classifiers 
Kkeywords=' '， 
author="'1lyh', 
author_email=']lyh@example.com', 
url='http://code.example.com/arithmetic', 
license="'MIT', 
packages=find_packages(exclude=['ez_ setup', 'examples', 'tests']), 
include_package_data=True, 
zip_safe=False, 
install_requires=[ 
# -*- Extra requirements: -*- 

]， 


entry_points=""" 
# -*- Entry points: -*- 


) 1 


看 ， 所 有 的 参数 都 帮 我 们 填 好 了 。 是 不 是 有 一 种 “有 了 paster， 表 
也 不 担心 创建 包 项 目 了 ”的 感觉 呢 ? 不 过 如 果 是 第 一 次 使 用 paster 的 
话 ， 回 答 问 题 时 可 能 会 输入 错误 ， 而 paster 又 不 能 回 退 删除 输入 ， 所 以 
一 出 错 就 只 好 重 来 一 次 。 男 外 ， 如 果 创 建 的 是 公司 项 目 ， 那 么 很 多 参 
数 的 值 都 是 确定 的 ， 比 如 author 的 值 一 般 就 是 公司 名 ， 那 么 每 次 都 要 
重新 输入 也 非常 麻烦 。 要 解决 上 述 的 两 个 问题 ， 束 可 以 用 上 --config 参 
数 了 ， 它 是 一 个 类 似 ini 文 件 格式 的 配置 文件 ， 可 以 使 用 你 喜欢 的 编辑 
器 在 里 面 填 好 各 个 模板 变量 的 值 (查询 模板 有 哪些 变量 用 --list- 
variables 参 数 ) ， 然 后 就 可 以 使 用 了 。 比 如 我 们 编辑 了 公司 项 目 专用 
的 模板 文件 corp-prj-setup.cfg: 


[pastescript] 

description = corp-prj 
license_name = 

keywords = Python 
long_description = corp-prj 
author = xxx cor 

author_email = xxx@example.com 
url = http://example.com 
version = 0.0.1 


然后 这 样 使 用 : 


paster create -t basic package --config="corp-prj-setup.cfg" arithmetic 


paster 将 不 再 癌 你 询问 ， 而 是 直接 生成 整个 项 目 ， 这 进一步 减轻 了 
创建 Python 包 的 工作 量 。 因 为 使 用 paster 确 实 能 够 帮助 开发 人 员 减 轻 创 
建 项 目的 工作 量 ， 所 以 受到 了 许多 项 目的 青睐 ， 比 如 Pyramid 就 带 有 几 
个 模板 ， 能 够 通过 模板 快速 地 创建 基于 Pyramid 的 Web 项 目 。 


建议 73: 理解 单元 测试 概念 


单元 测试 用 来 验证 程序 单元 的 正确 性 ， 一 般 由 开发 人 员 完 成 ， 是 
测 弃 过 程 的 第 一 个 环节 ， 以 确保 所 写 的 代码 符合 软件 需求 和 遵循 开发 
目标 。 好 的 单元 测试 可 以 市 来 以 下 好 处 : 


- 城 少 了 潜在 bug， 提 高 了 代码 的 质量 。 经 过 了 疗 格 的 单元 测试 ， 
意味 着 代码 中 潜在 的 bug 数 量 大 大 减少 ， 同 时 单元 测试 能 够 使 得 你 的 思 
考 方式 不 同 于 编码 ， 因 此 能 够 很 快 发 现 不 合理 的 设计 或 者 逻辑 ， 以 及 
算法 方面 的 漏洞 或 者 故障 ， 从 而 为 编写 高 质量 代码 提供 基本 保障 。 


:大 大 绚 减 软件 修复 的 成 本 。 我 们 知道 在 软件 开发 生命 周期 越 早 阶 
段 发 现 问 题 或 缺陷 ， 其 修复 的 代价 越 小 ， 因 此 在 单元 测试 阶段 发 现 问 
题 后 修复 代价 要 远 远 小 于 在 集成 测试 或 者 系统 测试 阶段 的 代价 。 


:为 集成 测试 提供 基本 保障 。 单 元 测试 可 以 大 大 减少 程序 中 各 个 首 
件 的 不 可 靠 性 ， 通 过 先 测试 程序 部 件 再 测试 部 件 组 狐 ， 使 集成 测试 变 
得 更 加 人 简单， 测试 人 员 因此 可 以 将 更 多 的 精力 放 在 用 户 场景 


纵然 单元 测试 有 各 种 好 处 ， 事 实 却 往往 是 “理想 很 丰满 ， 现 实 很 骨 
感 ”。 实 际 应 用 中 ， 单 元 测试 的 实践 并 不 理想 ， 原 因 和 是 多 方面 的 : 一 则 
管理 层 重视 不 够 ， 根 本 没有 把 单元 测试 提升 到 和 系统 集成 测试 同样 的 
高 度 ， 二 则 征 迫 于 项 目 期 限 的 压力 ， 开 发 人 员 往 往 没有 更 多 的 时 间 来 
写 单元 测试 的 用 例 和 代码 ， 三 则 开发 人 员 本 身 存 有 趋 利 避 害 的 侥幸 心 
理 ， 他 们 更 关注 于 可 以 工作 的 代码 ， 一 旦 编码 完成 ， 便 迫切 地 希望 能 
够 进行 集成 工作 ， 因 为 这 样 进 度 看 起 来 更 快 ， 同 时 寄 硕 望 于 集成 测试 
去 发 现 程 序 中 潜在 的 问题 。 那 么 ， 到 瓜 应 该 怎么 样 进行 有 效 的 单元 测 
试 呢 ? 有 效 的 单元 测试 应 该 从 以 下 几 个 方面 考虑 : 


1) 测试 匈 行 ， 遵 循 单元 测试 步 又。 测试 不 应 该 是 编码 结束 后 再 来 
考虑 的 事情 ， 实 际 上 从 项 目 需求 阶段 束 应 该 开始 考虑 。 编 写 单 元 测试 
应 该 尽量 安排 在 项 目的 早期 ， 并 且 测 试 代码 应 该 先 于 被 测试 的 代码 ， 
这 样 更 有 利于 明确 需求 。 典 型 的 单元 测试 的 步 又 如 下 : 


-创建 测试 计划 (Test Plan) 

-编写 测试 用 例 ， 准 备 测试 数据 。 

-编写 测试 脚本 。 

编写 被 测 代码 ， 在 代码 完成 之 后 执行 测试 脚本 。 
-修正 代码 缺陷 ， 重 新 测试 直到 代码 可 接受 为 止 。 


2) 遵循 单元 测试 基本 原则 。 和 常见 的 原则 如 下 : 


一 任性 。 意 味 着 1000 次 执行 和 一 次 执行 的 结果 应 该 是 一 样 的 ， 因 
此 ， 类 似 于 currenttime=time.localtime()， 产 生 这 种 不 确定 执行 结果 的 
语句 应 该 尽量 避免 。 


' 原 于 性 。 意 味 着 单元 测试 的 执行 结果 返回 只 有 两 种 ，True 或 者 
False， 不 存在 部 分 成 功 、 部 分 失败 的 例子 。 如 采 发 生 这 样 的 情况 ， 往 
往 是 测试 设计 得 不 够 合理 。 


单一 职责 。 测 试 应 该 基于 情景 (scenario) 和 行为 ， 而 不 是 方 
法 。 如 果 一 个 方法 对 应 着 多 种 行为 ， 应 该 有 多 个 测试 用 例 ; 而 一 个 行 
为 即使 对 应 多 个 方法 也 只 能 有 一 个 测试 用 例 。 例 如 下 边 的 代码 。 
testMethod( ): 


assertTrue(behaviour1) 
assertTrue(behaviour2) 


应 该 改 为 : 


testMethodCheckBehaviouri1 
() : 


assertTrue(behaviour1) 
testMethodCheckBehaviour2 
() : 


assertTrue(behaviour2) 


- 喝 离 性 。 不 能 依赖 于 具体 的 环境 设置 ， 如 数据 库 的 访问 、 环 境 变 
量 的 设置 、 系 统 的 时 间 等 ， 也 不 能 依赖 于 其 他 的 测试 用 例 以 及 测试 执 
行 的 顺序 ， 并 且 无 条 件 逻 辑 依赖 。 单 元 测试 所 有 的 输入 应 该 是 确定 
的 ， 方 法 的 行为 和 结果 应 是 可 以 预测 的 。 因 此 要 避免 以 下 的 测试 例 
Te 


testMehodBeforeOrAfter(): 
if before: 
assertTrue(behaviour1) 
elif after: 
assertTrue(behaviour2) 
else: 
assertTrue(behaviour3) 


修改 为 : 


testMethodBefore( ): 
before = True 
assertTrue(behaviour1) 
testMethodAfter(): 
after= True 
assertTrue(behaviour2) 
testMethodNow( ): 
after= False 
before = False 
assertTrue(behaviour3) 


3) 使 用 单元 测试 框架 。Python 测 试 也 曾经 历 过 “ 蛮 荡 时 代 ”， 那个 
时 候 测试 完全 是 个 人 化 的 行为 ， 没 有 统一 的 框 保 标准 ， 每 个 用 Python 
构建 的 项 目 在 编写 和 运行 测试 方面 都 采用 目 己 的 习惯 做 法 。 这 种 做 法 
不 仅 效率 低下 ， 而 且 不 利于 项 目 管理 。 幸 好 后 来 Python 社区 出 现 了 一 


些 测试 套件 ， 提 供 约 定 和 通用 标准 ， 后 面 未 渐 演变 为 流行 的 测试 框 
染 。 在 单元 测试 方面 常见 的 测试 框架 有 PyUnit 等 ， 它 是 Kent Beck 和 
Erich Gamma 所 设计 的 JUnit 的 Python 版 本 ， 在 Python 2.1 之 前 需要 单独 
安装 ，Python 2.1 之 后 它 成 为 一 个 标准 库 ， 名 为 unittest。 它 文 持 单元 测 
试 自 动 化 ， 可 以 共 吾 地 进行 测试 环境 的 设置 和 清理 ， 文 持 测 试用 例 的 
聚集 以 及 独立 的 测试 报告 框 染 。 我 们 以 unittest 来 看 看 如 何 借助 单元 测 
试 框架 更 好 地 进行 单元 测试 。unittest 相 关 的 概念 主要 有 以 下 4 个 : 


测试 固件 (test fixtures) 。 测 试 相关 的 准备 工作 和 清理 工作 ， 基 
于 类 TestCase 创 建 测试 固件 的 时 候 通 党 需要 重 狐 实现 setUp() 和 
tearDown() 方 法 。 当 定义 了 这 些 方法 的 时 候 ， 测 试 运 行 絮 会 在 运行 测 
试 之 前 和 之 后 分 别 调用 这 两 个 方法 。 


测试 用 例 (test case) 。 最 小 的 测试 单元 ， 通 常 基于 TestCase 构 
建 。 


测试 用 例 集 (test suite) 。 测 试用 例 的 集合 ， 使 用 TestSuite 类 来 实 
现 ， 除 了 可 以 包含 TestCase 外 ， 也 可 以 包含 其 他 TestSuite 。 


测试 运行 器 (test runner) 。 控 制 和 驱动 整个 单元 测试 过 程 ， 一般 
使 用 TestRunner 类 作为 测试 用 例 的 基本 执行 环境 ， 常 用 的 运行 器 为 
TextTest Runner， 它 是 TestRunner 的 子 类 ， 以 文字 方式 运行 测试 并 报告 
结果 


来 看 一 个 商 单 实例 。 假 设 要 测试 下 述 类 : 


class MyCal(object ) : 
def add(self,a,b): 
return a+b 
def sub(self,a,b): 
return a-b 


自 先 编写 测试 用 例 ， 并 在 setUp0 方 法 中 人 完成 初始 化 工作 ， 在 
tearDown() 方 法 中 完成 资源 释放 相关 的 工作 。 我 们 采用 动态 方法 编写 
测试 类 ， 多 个 测试 方法 可 以 集成 在 一 个 类 中 ， 这 些 方法 按 习 惯 通常 以 
test 开 头 。 具 体 如 下 : 


Class MyCalTest(unittest .TestCase ) : 

def setUp(self): 
print "running set up" 
self.mycal = mycal.MyCal() 

def tearDown(self): 
print "running teardown" 
self.mycal = None 

def testAdd(self): 
self.assertEqual(self.mycal.add(-1,7), 6) 

def testSub(self): 
self.assertEqual(self.mycal.sub(10,2), 8) 


在 创建 了 一 些 TestCase 子 类 的 实例 作为 测试 用 例 之 后 ， 下 一 步 要 
做 的 工作 就 是 用 TestSuit 类 来 组 织 它 们 。TestSuite 类 可 以 看 成 是 
TestCase 类 的 一 个 容器 ， 用 来 对 多 个 测试 用 例 进 行 组 织 ， 这 样 多 个 测 
试用 例 可 以 自动 在 一 次 测试 中 全 部 完成 。 


suite = unittest.TestSuite() 
suite.addTest(MyCalTest("testAdd")) 
suite.addTest(MyCalTest("testSub")) 


在 编写 完 测 试用 例 及 组 织 好 测试 用 例 之 后 ， 现 在 可 以 执行 测试 
ee 


runner = unittest.TextTestRunner() 
runner .run(suite) 


运行 命令 python-m unittest-v MyCalTest， 得 到 测试 结果 的 输出 如 


testAdd (MyCalTest.MyCalTest) ... running set up 
running teardown 
ok 


testSub (MyCalTest.MyCalTest) ... running set up 
running teardown 
ok 


Ran 2 tests in 0.000s 
OK 


当然 实际 执行 测试 过 程 和 应 用 测试 框 染 比 上 面 的 例子 要 复杂 得 
多 。 读 者 可 以 在 Python 文 档 中 查看 更 多 关于 unittest 使 用 的 详细 信息 ， 
并 在 实际 工作 中 实践 。 


最 后 需要 强调 的 是 ， 单 元 测试 绝 不 是 浪费 时 间 的 无 用 功 ， 它 是 高 
质量 代码 的 保障 之 一 ， 在 软件 开发 的 环节 中 值得 投入 精力 和 时 间 把 好 
这 一 关 。 


建议 74:， 为 包 编 写 单元 测试 


当 我 们 创建 了 一 个 包 ， 接 着 承 开 始 为 它 编写 业务 逻辑 的 代码 。 比 
如 在 前 文中 ， 我 们 创建 了 arithmetic 包 ， 并 在 里 面 增 加 一 个 加 法 函数 ， 
如 下 : 


def add(x, y): 
return x + y 


无 名 氏 说 : “ 当 你 写 下 代码 ，bug 随 之 而 来 ”。 所 以 我 们 需要 对 代码 
进行 测试 ， 以 便 交 付 物 在 交付 给 业务 的 下 游 部 门 使 用 时 有 一 定 质 量 保 
隐 。 对 于 一 个 函数 而 言 ， 最 简单 的 方法 也 许 殉 是 为 它 编写 一 些 单元 测 
试 代码 了 。 


if name == "”_ main 
assert add(1, 2) == 3 
assert add(1, -1) == 0 


这 样 ， 当 以 arithmetic.py 为 入 口 文 件 执行 arithmetic.py 的 时 候 ， 束 
会 运行 这 些 测试 代码 ， 实 现 对 add() 函 数 的 质量 检测 。 像 这 种 针对 函数 
编写 的 测试 ， 我 们 称 为 "单元 测试 >， 它 是 日 盒 测 试 的 一 种 ， 所 以 单元 
测试 用 例 都 是 根据 函数 的 代码 而 制定 的 。 通 过 单元 测试 ， 可 以 有 效 地 
避免 软件 退化 ， 增 进 软 件 质量 ， 并 更 快 地 产生 健壮 的 代码 。 甚 至 对 开 
发 人 员 来 说 ， 单 元 测试 用 例 也 是 最 好 的 文档 。 


虽然 上 例 让 大 家 感觉 测试 非常 简单 ， 但 实际 项 目 中 的 测试 也 有 不 
少 麻 烦 : 


1) 程序 员 希 望 测试 更 加 自动 化 ， 想 象 一 下 ， 如 果 加 减 乘除 4 个 函 
数 不 是 实现 在 arithemtic.py 一 个 文件 中 ， 而 是 分 列 在 4 个 文件 中 ， 那 么 
要 测试 它们 就 需要 分 别 运 行 这 4 个 文件 。 再 想象 一 下 ， 实 际 项 目 中 可 能 
一 个 包 中 有 几 十 甚至 上 百 个 文件 ， 那 么 想 要 全 部 测试 一 次 束 非 常 困 
难 。 


2) 一 个 测试 用 例 往往 在 测试 之 前 需要 进行 打桩 或 做 一 些 准 备 工 
作 ， 在 测试 之 后 要 清理 现场 ， 最 好 有 一 个 框架 可 以 目 动 完成 这 些 工 
作 。 


3) 对 于 大 项 目 ， 大 量 的 测试 用 例 需 要 分 门 别 类 地 放置 ， 而 测试 之 
后 ， 分 别 产 生 相 应 的 测试 报告 。 


Python 是 一 门 务实 的 语言 ， 所 以 目 珊 的 电池 中 就 包含 了 一 个 名 为 
unittest 的 模块 ， 可 以 解决 这 些 问 题 。 关 于 unittest 的 知识 ， 我 们 在 建议 
73 中 已 经 学 过 ， 接 下 来 就 看 一 下 如 何 使 用 unittest 进 行 测试 的 代码 。 


import unittest 
import arithmetic 
class TestCase(unittest.TestCase): 
def test_add(self): 
self.assertEqual(arithmetic.add(1, 1), 2) 
if name == ”main _" 
unittest.main() 
把 这 些 代码 保存 到 test_arithmetic.py 
中 ， 然 后 执行 命令 : 
>python test_arithmetic.py 


Ran 1 test in 0.000s 
OK 


虽然 没有 显 式 地 调用 TestCase.test_add， 但 从 Ranl test in 0.000s 这 
句 输出 中 可 以 看 到 这 个 测试 用 例 已 经 执行 到 了 ， 这 束 是 框架 的 好 处 。 
除了 目 动 调用 匹配 以 test 开 头 的 方法 之 外 ，unittest.TestCase 还 有 模板 方 
法 setUpO 和 tearDown()， 通 过 禾 盖 这 两 个 方法 ， 能 够 实现 在 测试 之 前 
执行 一 些 准备 工作 ， 并 在 测试 之 后 清理 现场 。 


然后 再 回 到 最 初 的 假设 ， 在 arithmetic 项 目 中 ， 若 加 减 乘除 4 个 画 
数 分 别 在 不 同 的 文件 中 ， 那 么 测试 用 例 也 可 能 分 别 写 在 4 个 文件 中 ,， 那 
么 运行 python test_xxx.py 命 令 的 形式 就 无 法 简化 测试 工作 。 这 时 候 可 
以 使 用 unittest 的 测试 发 现 (test discover) 功能 。 


>python -m unittest discover 


Ran 1 test in 0.000s 
OK 


unittest 将 递归 地 查找 当前 目录 下 匹配 test*.py 模 式 的 文件 ， 并 将 其 
中 unittest.TestCase 的 所 有 子 类 都 实例 化 ， 然 后 调用 相应 的 测试 方法 进 
行 测试 ， 这 束 一 举 解决 了 “通过 一 条 命令 运行 全 部 测试 用 例 ” 的 问题 。 


unittest 的 测试 发 现 功能 是 Python 2.7 版 本 中 才 有 的 ， 如 果 你 在 使 用 
更 旧 的 版 本 ， 请 安 普 unittest2 。 


尽管 unittest 的 测试 发 现 功能 已 经 非常 方便 ， 但 是 因为 它 需要 高 版 
本 的 Python 文 持 ， 所 以 大 家 喜欢 使 用 setuptools 的 扩展 命令 test。 


>python setup.py test 

running test 

running egg_info 

writing arithmetic.egg-info/PKG-INFO 

writing top-level names to arithmetic.egg-info/top_level.txt 
writing dependency_links to arithmetic.egg-info/dependency_links.txt 
writing entry points to arithmetic.egg-info/entry_points.txt 
reading manifest file 'arithmetic.egg-info/SOURCES.txt' 
writing manifest file 'arithmetic.egg-info/SOURCES.txt' 
running build_ext 

test_add (test arithmetic.TestCase) ... ok 

Ran 1 test in 0.000s 

OK 


setuptools 对 distutils.commands 进 行 了 扩展 ， 增 加 了 test 命 令 。 如 上 
例 所 示 ， 这 个 命令 执行 的 时 候 ， 先 运行 egg_info 和 build_ext 子 命令 构建 
项 目 ， 然 后 把 项 目 路 径 加 到 sys.path 中 ， 再 搜寻 所 有 的 测试 套件 (test 


suite， 通 常 指 多 个 测试 用 例 或 测试 套件 的 组 合 ) ， 并 运行 之 。 要 使 用 
这 个 扩展 命令 ， 需 要 在 调用 setup0) 函 数 的 时 候 癌 它 传递 test_suite 元 数 
据 。 比 如 在 arithmetic 项 目 中 ， 是 这 样 的 : 


>cat setup.py 
setup(name='arithmetic', 


test_suite = "test arithmetic", 


test_suite 元 数据 的 值 可 以 指 癌 一 个 包 、 模 块 、 类 或 函数 ， 比 如 在 
著名 的 flask 项 目 中 ， 是 test_suite='flask.testsuite.suite'"， 其 中 
flask.testsuite.suite 是 一 个 函数 ;而 在 arithmetic 项 目 中 ，test_arithmetic 
是 一 个 模块 。 


使 用 setuptools 的 测试 发 现 功能 ， 可 以 给 开发 人 员 更 一 致 的 开发 体 
验 ， 职 像 使 用 build、install 命 令 一 样 ， 所 以 受到 了 大 家 的 喜爱 。 但 是 来 
和 目 unittest 本 刁 的 缺陷 让 开发 人 员 想 要 找到 一 个 更 好 的 测试 框架 。 


1) unittest 并 不 够 Pythonic， 比 如 从 JUnit 中 继承 而 来 的 首 字母 小 写 
的 狗 驼 命令 法 ;所 有 的 测试 用 例 都 需要 从 TestCase 继 承 。 


2) unittest 的 setUpO 和 tearDownO 只 是 在 TestCase 的 层面 上 提供 ， 
即 每 一 个 测试 用 例 执行 的 时 候 都 会 运行 一 遇 ， 如 果 有 许多 模块 需要 测 
试 ， 那 么 创建 环境 和 清理 现场 操作 都 会 带 米 大 量 工 作 。 


3) unittest 没 有 插件 机 制 进行 功能 扩展 ， 比 如 想 要 增加 测试 覆盖 统 
计 特性 吏 非 常 困难 。 


nose 就 是 作为 更 好 的 测试 框架 进入 大 家 视线 的 ， 而 且 它 更 是 一 个 
具有 更 强大 的 测试 发 现 运行 的 程序 。 此 外 nose 定 义 了 插件 机 制 ， 使 得 
扩展 nose 的 功能 成 为 可 能 (默认 自 带 coverage 插 件 ) 。 使 用 pip、 


easy_install 安 装 以 后 ， 了 驶 多 了 一 个 nosetests 命 令 可 以 使 用 。 比 如 在 
arithmetic 项 目 中 运行 : 
>nosetests -V 


test_add (test arithmetic,.TestCase) ... ok 


Ran 1 test in 0.004s 
OK 


可 以 看 到 nose 能 够 目 动 发 现 测 试用 例 ， 并 调用 执行 ， 由 于 它 与 原 
有 的 unittest 测 试用 例 兼 容 ， 所 以 可 以 随时 将 它 引 入 到 项 目 中 来 。 其 实 
nose 的 测试 发 现 机 制 更 进一步 ， 它 抛弃 了 unittest 中 测试 用 例 必须 放 在 
TestCase 子 类 中 的 限制 ， 只 要 命名 符合 (?: 和 |[b_.-])[Ttjest 正 则 表达 式 的 
类 和 函数 都 可 作为 测试 用 例 运 行 。 


此 外 ，nose 作 为 一 个 测试 框架 ， 世 提供 了 与 unittest.TestCase 类 似 
的 断言 钞 数 ， 但 它 抛弃 了 unittest 的 那 种 Java 风 格 的 命令 方式 ， 使 用 的 
是 符合 PEP8 的 命名 方式 。 


针对 unittest 中 setUpO 和 tearDownO 只 能 放 在 TestCase 中 的 问题 ， 
nose 提 供 了 3 个 级 别 的 解决 方案 ， 这 些 配置 和 清理 函数 ， 可 以 放 在 包 
LU_init_ .py 文件 中 ) 、 模 块 和 测试 用 例 中 ， 非 常 完 美 地 解决 了 不 同 
层次 的 测试 需要 的 配置 和 清理 需求 。 


最 后 ，nose 与 setuptools 的 集成 更 加 友好 ， 提 供 了 nose.collector 作 为 
通过 的 测试 套件 ， 让 开发 人 员 无 须 针 对 不 同 项 目 编写 不 同 的 套件 。 比 
如 针对 arithmetic 项 目的 setup.py 文 件 作 如 下 修改 : 


>cat Setup ,py 
setup(name='arithmetic', 


# test_suite = "test arithmetic", 
test_suite = "nose.collector", 


然后 运行 python setup.py test， 得 到 的 结果 是 一 样 的。 因为 使 用 了 
nose.collector 之 后 ，test_suite 元 数据 束 确 定 不 变 了 ， 所 以 它 也 非常 适合 
瑟 入 paster 的 模板 中 去 ， 在 构建 目录 的 时 候 自 动 生 成 。 


建议 75: 利用 测试 驱动 开发 提 局 代码 的 可 
测 性 


测试 驱动 开发 (Test Driven Development，TDD) 是 敏捷 开发 中 一 
个 非常 重要 的 理念 ， 它 提倡 在 真正 开始 编码 之 前 测试 先行 ， 先 编写 测 
试 代 码 ， 再 在 其 基础 上 通过 基本 迭代 完成 编码 ， 并 不 断 完 善 。 其 目的 
是 编写 可 用 的 干净 的 代码 。 所 谓 可 用 残 是 能 够 通过 测试 满足 基本 功能 
需求 ， 而 干净 则 要 求 代码 设计 良好 、 可 读 性 强 、 没 有 元 余 。 在 软件 开 
发 的 过 程 中 引入 TDD 能 带 来 一 系列 好 处 ， 如 改进 的 设计 、 可 测 性 的 增 
强 、 更 松 的 耦合 度 、 更 强 的 质量 信心 、 更 低 的 缺陷 修复 代价 等 。 那 
么 ， 如 何在 编程 过 程 中 实施 测试 驱动 开发 呢 ? 一 般 来 说 ， 遵 循 如 图 7-2 
所 示 的 过 程 。 


编写 测试 用 例 


广 一 一 一 一 


运行 测试 


修改 代码 使 其 通过 测试 


-| 如 果 可 能 ， 对 代码 进行 重 构 


图 7-2 ”测试 驱动 开发 流程 


1) 编写 部 分 测试 用 例 ， 并 运行 测试 。 


2) 如 果 测 试 通过 ， 则 回 到 测试 用 例 编 写 的 步骤 ， 继 续 添 加 新 的 测 
试用 例 。 


3) 如 果 测 试 失败 ， 则 修改 代码 直到 通过 测试 。 


4) 当 所 有 测试 用 例 编写 完成 并 通过 测试 之 后 ， 再 来 考虑 对 代码 进 
行 重 构 。 


假设 开发 人 员 需 要 编写 一 个 求 输入 数列 的 平均 数 的 例子 。 在 开始 
编写 测试 用 例 之 前 我 们 先 编写 简单 的 编码 以 保证 测试 能 真正 开始 执 
行 。 


假设 源 文 件 avg.py 内 容 如 下 : 


def avg(x): 
pass 


当 完 成 基本 的 代码 框架 之 后 ， 便 可 以 开始 实施 TDD 的 具体 过 程 
了 。 


步骤 1 ”编写 测试 用 例 。 基 本 的 测试 用 例 应 该 包括 对 整数 、 浮 点 
数 、 混 合 输入 情况 下 基本 功能 的 验证 ， 以 及 对 空 输 入 、 无 效 输入 的 处 
理 。 测 试用 例 代码 如 下 : 


import unittest 
from avg import avg 
class TestAvg(unittest,TestCase ) : 
def test_int(self): 
print "test average of integers:" 
self.assertEqual(avg([9,1,2]),1) 
def test_float(self): 
print "test average of float:" 
self.assertEqual(avg([1.2,2.5,0.8]),1.5) 
def test_empty(self): 
print "test empty input:" 
self.assertFalse(avg([]),False) 
def test_mix(self): 
print "test with mix input:" 
self.assertEqual(avg([-1,3,7]),3) 
def test_invalid(self): 
print "test with invalid input:" 
self.assertRaises(TypeError,avg,[-1,3,1[1,2,3]]) 
if name == '_ main _': 
unittest.main() 


步骤 2? ”运行 测试 用 例 (部 分 输出 ， 测 试 结果 显示 失败 ， 如 图 
7-3 所 示 。 


test_empty (testavg.ITestfvug> ... test empty input: 

ok 

test_float (testavg.Iestfvug)» ... test average of float: 
FAIL 

test_int testavg.ITestfvg>》 ... test average of jintegers: 


FAIL 

test_invalid Ctestavg.Testfvug> ... test with invalid input: 
FAIL 

test_mix “testaug.Iesthug) ... test with mix input: 

FAIEL 


图 7-3 ”测试 结 


步骤 3 ”开始 编码 直到 所 有 的 测试 用 例 都 通过 。 这 十 一 个 不 俘 地 
重复 迭代 的 过 程 ， 需 要 多 次 重复 编码 测试 ， 直 到 上 面 的 测试 用 例 全 间 
执行 成 功 。 


def avg(x): 
if len(x)<=0: 
print "you need input at least one number" 
return False 
sum = 0 
try: 


Sum += 工 
except TypeError : 
raise TypeError("your input is not value with unsupported type") 
return sum/len(x) 


步 又 4 ” 重 构 。 在 测试 用 例 通过 测试 之 后 ， 现 在 可 以 考虑 一 下 重 
构 的 问题 了 。 代 码 有 没有 更 优化 的 实现 方式 呢 ? 显然 直接 利用 内 建 画 
数 sum 更 高 效 直接 。 因 此 对 代码 进行 重 构 并 重新 测试 生成 最 终 产品 代 
码 。 


def avg(*x): 
if len(*x)<=0: 
print "you need input at least one number" 
return False 


try: 
return sum(*x)/len(*x) 
except TypeError: 
raise TypeError("your input is not value with unsupported type") 


天 于 测试 驱动 开发 和 提高 代码 可 测 性 方面 有 以 下 几 点 需要 说 明 : 


:TDD 只 是 手段 而 不 是 日 的 ， 因 此 在 实践 中 尽量 只 验证 正确 的 事 
情 ， 并 且 每 次 仅仅 验证 一 件 事 。 当 人 直 到 问题 时 不 要 局 限于 TDD 本 里 所 
涉及 的 一 些 概 念 ， 而 应 该 回头 想 想 采用 TDD 原 本 的 出 发 点 和 目的 是 什 


月 ， 


全 
:测试 驱动 开发 本 喘 束 是 一 | 门 学 问 ， 不 要 指望 通过 一 个 简单 的 例子 
忠 掌 握 其 精髓 。 如 采 需 要 更 深入 的 了 解 ， 推 荐 在 阅读 相关 书籍 的 同时 


在 实践 中 不 断 提 高 对 其 的 领情 
代码 的 不 可 测 性 可 以 从 以 下 几 个 方面 考量 : 实践 TDD 困 难 ; 外 部 
能 完成 测试 ， 职 贡 太 多 导致 功能 模 


依赖 太 多 ; 需要 写 很 多 模拟 代码 才 
糊 ， 内 部 状态 过 多 且 没 有 办 法 去 操作 和 维护 这 些 状态 ， 画 数 没有 明显 


硝 合 ;等 等 。 如 采 在 测试 过 程 中 遇 到 这 


返回 或 者 参数 过 多 ;， 低 内 案 融 
些 问 题 ， 应 该 停 下 来 想 想 有 没有 更 好 的 设计 。 


建议 76: 使 用 Pylint 检 查 代 人 码 风 格 


如 有 果 你 的 团队 亲人 循 PEP8 的 编码 风格 ，Pylint 是 个 不 错 的 选择 (当然 
还 有 其 他 很 多 选择 ， 如 pychecker、pep8 等 ) 。Pylint 始 于 2003 年 ， 是 一 
个 代码 分 析 工 具 ， 用 于 检查 Python 代码 中 的 错误 ， 查 找 不 符合 代码 编码 
规范 的 代码 以 及 潜在 的 问题 。 文 持 不 同 的 OS 平台 ， 如 Windows 、 
Linux、OSX 等 ， 目 前 最 新 的 版 本 为 1.0.0。 其 特性 如 下 : 


:代码 风格 审查 。 它 以 Guido van Rossum 的 PEP8 为 标准 ， 能 够 检查 
代码 的 行 长 度 ， 不 符合 规范 的 变量 名 以 及 不 恰当 的 模块 导入 等 不 符合 
编码 规范 的 代码 。 


代码 错误 检查 。 如 未 被 实现 的 接口 ， 方 法 缺少 对 应 参数 ， 访 问 模 
块 中 未 定义 的 变量 等 。 


发 现 重 复 以 及 设计 不 合理 的 代码 ， 帮 助 重 构 。 
-高 度 的 可 配置 化 和 可 定制 化 ， 通 过 对 pylintrc 文 件 的 修改 可 以 定义 
目 己 适合 的 规范 。 


文 持 各 种 IDE 和 编辑 器 集成 。 如 Emacs、Eclipse、WingIDE、 
VIM、Spyder 等 。 访 者 可 以 查看 http:/docs.pylint.org/ide-integration 获 取 
更 为 详细 的 信息 。 


能够 基于 Python 代码 生成 UML 图 。Pylint 0.15 中 就 集成 了 
Pyreverse， 能 够 轻易 生成 UML 图形 。 感 兴趣 的 读者 可 以 查看 
http://www.logilab.org/blogentry/6883 ° 


-能够 与 Hudson、Jenkins 等 持续 集成 工具 相 结合 文 持 目 动 代码 审 


号 


下 面 我 们 来 看 如 何 使 用 Pylint 进 行 代码 检查 。 以 求 平衡 数 为 例 ( 平 
衡 数 的 定义 : 在 一 个 列表 中 该 数字 之 前 的 所 有 数 之 和 与 该 数 之 后 的 所 
有 数 之 和 相等 ) 。 代 码 如 下 : 


"""”This script is used for testing balance point in a list """ 
def main(): 
Thr 
This program is used to find the balance point,the defenition of the balance 
point is that: 
In a array,the sum of all the number before present point is equal to the sum 
of the number after present point 
Thr 
numbers = [1,3,5,7,8,25,4,20,29] 
sum = 0 
for num in numbers: 
sum += num 
print ("The present number is",num,"\n") 
for index in range(len(numbers)): 
print ("The present index is",index,"\n") 
former = 0 
after = 0 
i=0 
for i in range(index): 
former += numbers[i] 
after = sum - former - numbers[index] 
if(former == after): 
print ("The balance point is:", numbers[index]) 
if name == "main _": 
main() 


使 用 Pylint 分 析 代 码 ， 输 出 分 为 两 部 分 ， 一 部 分 为 源 代码 分 析 结 
果 ， 第 二 部 分 为 统计 报告 。 报 告 部 分 主要 是 一 些 统计 信息 ， 总 体 来 说 
有 以 下 6 类 : 

1) Statistics by type: 检查 的 模块 、 函 数 、 类 等 数量 ， 以 及 它们 中 
存在 文档 注释 以 及 不 良 命名 的 比例 。 


2) Raw metrics: 代码、 注释 、 文 档 、 空 行 等 占 模块 代码 量 的 百 分 
比 统 计 。 


3) Duplication: 重复 代码 的 统计 百分比 。 


4) Messages by category: 按照 消息 类 别 分 类 统计 的 信息 以 及 和 上 
一 次 运行 结果 的 对 比 。 


5) Messages: 具体 的 消息 有 D 及 它们 出 现 的 次 数 ， 如 C0303 出 现 29 
次 各 


6) Global evaluation: 根据 公式 计算 出 的 分 数 统计 10.0- 


((float(5*errortwarning+refactortconvention)/statement)*10)° 


我 们 来 重点 讨论 一 下 源 代 码 分 析 主 要 以 消息 的 形式 显示 代码 中 存 
在 的 问题 。 消 息 以 MESSAGE_TYPE:LINE_NUM:[OBJECT:]MESSAGE 
的 形式 输出 ， 如 图 7-4 所 示 。 主 要 分 为 以 下 5 类 : 


(C) 惯 例 。 违 反 了 编码 风格 标准 。 


-(R) 重 构 。 写 得 非常 糟糕 的 代码 。 
(W) 警 告 。 某 些 Python 特定 的 问题 。 
-(B) 错 误 。 很 可 能 是 代码 中 的 bug。 


(HB) 致 命 错误 。 阻 止 Pylint 进 一 步 运行 的 错误 。 


: Trailing whitespace Ctrailing-whitespace> 
: Trailing whitespace (trailing—whitespace> 


3: Trailing whitespace trailing—-whitespace> 
: Found indentation with tabs instead of spaces Cnixed-indentation> 
: Trailing whitespace trailing—whitespace>» 


图 7-4 ”Pylint 输 出 信息 


比如 图 7-4 第 一 行 信息 输出 trailing-whitespace 信 息 ， 如 果 想 进一步 
弄 清 楚 这 个 信息 所 表达 的 意思 ， 可 以 使 用 命令 pylint --help- 
msg="trailing-whitespace" 来 查看 。 


No config file found, using default configuration 
:C0303 (trailing-whitespace): *Trailing whitespace* 

Used when there is whitespace between the end of a line and the newline. Thi 
message belongs to the format checker. 


这 里 提示 的 是 行 尾 存在 空格 ， 也 许 对 很 多 人 来 说 这 类 格式 检查 过 
于 严格 。 再 比如 上 面 的 检查 中 输出 较 多 的 是 W0312 (使 用 Tab 刍 而 不 是 
空格 键 作为 缩 进 相关 的 错误 ， 如 有 果 不 希 望 对 这 类 代码 风格 进行 检 
查 ， 可 以 使 用 命令 行 过 滤 掉 这 些 类 别 的 信息 ， 如 pylint -d C0303,W0312 
BalancePoint.py， 输 出 结果 如 图 7-5 所 示 。 


Module BalancePoint 
@B: Line too long 91/80> Cline—too—-long> 
HB: Line too long C111/886> 《1ine-too 一 longy> 
1: Redefining built—-in ’sum’ redef ined—hbuiltin> 
1: Comma not followed by a space 
11 2 [1.3.5.7.8.25 PA 
人 ^ 个 《no-space-after-comma》 


: 12， 2: Comma not followed bu a Space 
print <"The present number is"",num, "Nn"> 
人 ^ 个 《no-space-after-comma》 

: 15, 2: Comma not followed by a Space 
print "The present index is".index."\n"> 
^^ 《no-space-after-comma> 


图 7-5 过滤 掉 某 些 类 别 信息 后 的 输出 


根据 信息 提示 做 如 下 修改 再 运行 便 不 再 有 其 他 问题 ， 而 Global 
evaluation 的 评估 为 10。 


1) 调整 第 五 、 第 六 行 代码 长 度 。 
2) sum 名 称 和 内 建 隙 数 sum 同 名 ， 修 改 为 result 。 
3) 在 列表 后 面 增加 空格 ，numbers = [1, 3, 5, 7, 8, 25, 4, 20, 29] 。 


4) 在 12 行 输出 语句 后 面 加 上 空格 print ("The present index is"， 
index,"\n") ° 


5) 在 12 行 输出 语句 后 面 加 上 空格 print ("The present number is"， 
num,"\n")° 


Pylint 文 持 可 配置 化 ， 如 采 在 项 目 中 希望 使 用 统一 的 代码 规范 而 不 
是 默认 的 风格 来 进行 代码 检查 ， 可 以 指定 --generate-rcfile 来 生成 配置 文 
件 。 默 认 的 Pylintrc 可 以 在 Pylint 的 目 孙 examples 中 找到 。 如 默认 文 持 的 
变量 名 的 正则 表达 式 为 : variable-rgx=[a-z_][a-z0-9_]{2,301$。 如 果 硕 望 
改 为 只 能 以 2~10 个 字符 的 小 写字 母 命名 ， 可 以 将 代码 修改 为 variable- 
rgx=[a-z_]{2,10}$。 其 他 配置 如 reports 用 于 控制 是 否 输 出 统计 报告 ; 
max-module-lines 用 于 设置 模块 最 大 代码 行 数 ，max-line-length 用 于 设置 
代码 行 最 大 长 度 : max-args 用 于 设置 函数 的 参数 个 数 等 。 读 者 可 以 自行 
得 看 pylintrc 文 件 ， 获 取 更 为 详细 的 信息 。 


建议 77: 进行 高 效 的 代码 审 碍 


“代码 审查 是 件 很 无 聊 的 事情 ， 费 时 费力 ， 纯 炉 形 式 主义 ” 


有 这 


样 想法 的 开发 人 员 不 在 少数 ， 甚 至 很 多 团队 由 于 这 些 原因 或 者 开发 进 


度 等 其 他 因素 干脆 就 直接 忽略 这 个 环节 。 那 么 ， 是 不 是 代码 审查 真 的 
那么 一 无 是 处 呢 ? 真相 生 : 它 远 比 你 想象 的 要 重要 得 多 。 很 多 人 之 所 
以 会 产生 这 样 的 误区 ， 多 半 有 是 因为 代码 审查 的 流程 不 够 高 效 或 者 审查 
的 目的 出 现 了 偏差 。 我 们 通过 一 组 统计 数据 来 看 严格 高 效 的 代码 审查 


到 奈 有 多 重要 ， 如 图 7-6 所 示 。 


| 假设 存在 10000 个 bug | | 修复 一 个 bug 的 代价 (S) 总 体 代价 | 
代码 审查 10% 75 75 000 450 000 
C9000 
a 
单元 测试 20% 150 345 000 690 000 
C7200 
功能 测试 60% 500 2505 000 1410 000 
CC 2880 
系统 测试 705 2000 6537 000 2754 000 
< 一 864 
bd 
客户 汇报 30% 25 000 10 877 000 | 4914 000 
Se 
604 
SS 


图 7-6 不 同 代码 审查 效率 下 修复 bug 的 代价 


图 7-6 所 表示 的 是 在 不 同 的 阶段 中 未 经 过 疗 格 有 效 的 代码 审查 和 经 
过 高 效 代码 审查 后 所 得 到 的 bug 发 现 比率 和 修复 代价 对 比 关 系 。 从 图 7-6 
可 以 看 出 ， 有 效 的 代码 审查 流程 非 第 必 要 ， 它 能 够 使 得 大 量 bug 在 该 阶 
段 被 发 现 ， 并 且 大 幅度 降低 bug 修复 的 总 体 代 价 ， 因 为 代码 审查 阶段 
bug 的 修复 代价 非常 小 。 除 此 之 外 ， 代 码 审查 还 有 助 于 建立 高 效 的 
队 ， 提 高 团队 成 员 之 间 的 协作 能 力 以 及 编码 水 平 ， 有 助 于 跨 团队 之 间 
知识 共享 。 那 么 ， 团 队 应 该 以 什么 样 的 态度 去 看 待 代码 审查 呢 ? 


1) 不 要 错误 地 理解 代码 审查 会 的 目的 。 代 码 审 查 会 的 自 要 目的 十 
提高 代码 质量 ， 找 出 defect 或 者 设计 上 的 不 足 而 非 修 复 defect。 也 许 有 人 
会 疑虑 ，defect 不 要 修复 吗 ? 要 ! 但 绝 不 是 在 审查 会 上 ， 这 是 保证 代码 
审查 高 效 的 第 一 个 关键 ， 因 为 时 间 有 限 ， 不 可 能 也 不 允许 在 审查 会 
去 讨论 bug 或 者 defect 如 何 修复 ， 所 有 类 似 问 题 应 该 记录 下 来 等 会 后 讨 


论 。 


2) 代码 审查 过 程 不 应 该 有 KPI (Key Performance Indicator) 评价 
的 成 分 。 如 果 将 代码 审查 中 发 现 bug 的 概率 作为 对 开发 人 员 绩 效 考核 的 
标准 ， 势 必 会 打击 参与 人 员 的 积极 性 ， 有 些 人 可 能 因为 怕 承 担 责任 而 
不 愿意 直接 指出 代码 中 的 问题 。 同 时 也 会 引起 被 审查 人 员 的 自我 保护 
意识 ， 当 问题 发 生 的 时 候 ， 被 审查 者 可 能 更 关注 于 怎么 推 郑 问题 而 不 
是 静 下 心 来 解释 问题 产生 的 原因 ， 以 及 如 何 改进 。 因 此 ， 代 码 审查 要 
努力 做 到 针对 技术 和 问题 本 身 。 


3) 对 管理 层 的 建议 : 除非 经 理 或 者 组 长 真正 参与 到 具体 的 技术 问 
题 ， 人 否则 应 该 尽量 避免 这 些 人 员 参 与 代码 审查 会 ， 因 为 这 些 人 直接 与 
员工 KPI 评价 挂钩 ， 即 使 申明 不 会 用 bug 或 者 defect 发 现 的 数目 来 作为 评 
价 标准 ， 但 由 于 这 些 人 身份 的 符 殊 ， 仍 然 可 能 造成 评审 参与 人 员 不 能 
诚实 面 对 代 码 本 喘 的 局 面 。 


4) 对 开发 者 的 建议 : 把 代码 审查 当做 一 个 学 习 的 机 会 ， 而 不 要 看 
成 是 浪费 你 的 时 间 帮 别人 来 解决 问题 。 无 论 你 技术 水 平 的 高 低 ， 阅 读 
和 审查 同行 的 代码 可 以 让 你 学 习 更 优秀 的 设计 和 编码 ， 也 能 让 你 更 快 
速 地 知道 如 何 避 免 一些 糟 糕 的 代码 和 设计 上 的 缺陷 。 


有 了 正确 的 态度 ， 还 需要 一 定 的 流程 来 保证 才能 做 到 高 效 的 代码 


O 〇 


审 
(1) 定位 角色 。 


一 般 来 说 代码 审查 会 上 有 4 类 角色 : 仲裁 者 、 会 议 记 录 者 、 被 评审 
开发 人 员 和 评审 者 。 


1) 仲裁 者 : 也 叫 主持 人 ， 一 般 由 技术 专家 或 者 资深 技术 人 员 担 
任 。 担 任 该 角色 的 人 员 不 仅 要 技术 精湛 、 业 务 精通 ， 而 且 要 有 全 局 系 
统 思 维和 较 好 的 沟通 以 及 领导 能 力 。 他 的 主要 职 贡 是 控制 会 议 流程 和 
时 间 ， 保 证 会 议 流 程 的 高 效 性 ， 同 时 能 够 在 必要 的 时 候 给 予 评 审 技术 
和 导 。 因 此 在 评审 过 程 中 如 末 出 现 了 参与 人 员 束 一 个 问题 争论 不 休 的 
时 候 ， 该 角色 应 该 能 够 给 予 及 时 制止 和 指导 性 意见 ， 特 别 要 注意 保护 
被 评审 人 员 。 在 评审 结束 之 后 ， 仲 裁 者 还 应 该 确保 发 现 的 问题 被 正确 
解决 。 


2) 会 议 记录 者 : 及 时 记录 评审 过 程 中 发 现 的 问题 ， 包 括 问题 的 提 
出 者 、 问 题 插 述 、 问 题 产 生 的 位 置 ， 如 琳 有 解决 息 路 还 应 该 记录 解决 
方法 ， 如 来 问题 暂时 没有 解决 办 法 应 该 记录 下 一 步行 为 ， 如 是 会 后 癸 
究 还 是 另外 开会 讨论 等 。 需 要 强调 的 是 ， 在 记录 完 一 个 问题 相关 信息 
之 后 ， 会 议 记 录 着 必须 和 被 评审 开发 人 员 确认 记 录 内 容 ， 以 保证 记录 
的 信息 准确 无 误 且 人 被 该 开发 人 员 认 可 。 


3) 被 评审 开发 人 员 : 一 般 被 评审 开发 人 员 在 评审 开始 的 时 候 应 该 
对 其 代码 有 综合 性 的 介绍 ， 在 评审 者 提出 问题 或 者 质疑 的 时 候 应 该 及 
时 给 出 解释 。 被 评审 开发 人 员 对 其 他 人 提出 的 意见 或 者 问题 要 正确 看 
待 ， 不 要 当做 攻击 ， 记 住 : 所 有 人 的 目的 都 是 为 了 开发 出 质量 更 高 的 
软件 。 被 评审 开发 人 员 一 般 不 参与 对 代码 的 具体 审查 。 


4) 评审 者 ， 除 了 以 上 3 类 人 员外 ， 其 余 与 会 的 人 都 称 为 评审 者 ， 
评审 者 组 成 应 该 是 有 经 验 的 和 经 验 相对 较 弱 的 人 员 兼 而 有 之 ， 因 为 这 
样 的 组 合 才能 在 评审 的 同时 更 好 地 起 到 培训 作用 ， 提 高 经 验 较 弱 人 员 
的 编码 能 力 。 


(2) 充分 准备 


在 代码 提交 审查 之 前 ， 代 码 作者 需要 做 以 下 准备 : 对 代码 进行 目 
我 修正 ， 包 括 对 代码 风格 进行 检查 、 添 加 必要 的 注释 、 完 成 必要 的 功 
能 测试 等 ， 提 前 通知 参与 审查 的 人 员 ， 以 便 他 们 能 够 事先 对 代码 框 染 
有 个 基本 了 解 ， 确 定 会 议 时 间 和 进程 。 


Ri | Tm 


二 Tv 


1<] 1s True 


时 
| | 
imp? | -1 

1<] 1s Fasle ,| fH | 
si 


图 7-7 台面 检查 示例 
(3) 合理 使 用 技术 和 工具 


代码 审查 并 不 是 完全 依靠 经 验 的 ， 有 一 些 方法 可 以 仁 循 。 常 见 的 
方法 和 工具 如 下 。 


(检查 表 (checklist) : 检查 表 有 利于 有 针对 性 地 发 现代 码 中 存在 
的 问题 ， 如 变量 古 否 初始 化 ， 函 数 调用 的 参数 ， 命 名 是 否 一 人 怪 ， 字 符 
串 是 否 正 确 解码 ， 有 没有 import 林 使 用 的 lib， 逻 辑 操 作 符 十 否 正确 ， 

() 、 癸 对 是 否 一 致 等 。 


台面 检查 (Desk Checking) : 适合 在 编码 早期 对 顺序 执行 的 代 
码 进 行 检查 ， 手 工 模拟 代码 的 执行 过 程 来 检查 程序 中 潜在 的 问题 。 图 7- 
7 所 示 束 古 下 面 的 代码 的 台面 检查 。 


@IRT (Interleaving Review Technique) : 适合 于 并 发 性 的 代码 或 
者 容错 性 系统 。 更 多 IRT 的 资料 读者 可 以 参考 
https://www.research.ibm.com/haifa/ Workshops/PADTAD2004/papers/irt_p 
adtad2.pdf 。 


人 代码 审查 工具 如 Rietveld 、review board、Collaborative Code 
Review Tool (CCRT) 等 。 


(4) 控制 评审 时 间 和 评审 内 容 


为 了 保证 效率 ， 一 般 来 说 一 次 评审 时 间 要 尽量 控制 在 45 分 钟 到 1 小 
时 。 人 研究 表 明 ， 当 人 的 注意 力 集中 超过 1 小 时 ， 效 率 就 会 急剧 下 降 。 而 
一 次 评审 的 代码 行 数 应 控制 在 200 行 以 内 ， 最 好 不 超过 400 行 。 如 图 7-8 
所 示 描 述 的 就 是 缺陷 发 现 的 密度 与 评审 代码 行 数 之 间 的 关系 。 由 图 可 
知 当 被 评审 的 代码 超过 200 行 时 ， 查 出 缺陷 的 密度 就 会 急剧 下 降 。 
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图 7-8 ”代码 行 数 与 查 出 缺陷 密度 之 间 的 关系 
(5) 关注 技术 层面 ， 对 事 不 对 人 


要 把 重点 放 在 技术 问题 以 及 如 何 解 决 上 ， 而 不 是 诸如 代码 风格 
(代码 风格 当然 重要 ， 但 应 该 在 评审 之 前 束 由 开发 者 对 照 组 织 规定 事 
先 完 成 ， 评 审 过 程 附带 指出 一 些 特殊 问题 ) 、 时 间 进 度 之 类 的 非 技术 
层面 的 问题 上 。 此 外 ， 评 审 人 员 应 该 对 事 不 对 人 ， 在 评审 过 程 中 要 合 


ee 或 者 “我 认为 
皇 样 做 更 好 ”、 而 不 是 “你 这 代码 写 的 太 烂 了 ”`“ 坟 圾 "等 这 有 攻击 性 的 
语言 。 较 好 的 方法 是 评审 着 在 评审 的 过 程 中 时 刻 警惕 : 代码 是 不 生 正 
常 工作 ? 与 需求 是 不 是 匹配 ? 实现 上 有 没有 潜在 的 问题 和 风险 ? 推荐 
采取 “六 顶 帽子 ”思考 法 。 


(6) 记录 问题 ， 妃 踩 进一步 行动 


记录 问题 是 为 了 保证 在 评审 会 上 发 现 的 问题 和 缺陷 在 会 后 能 得 到 
及 时 的 修复 。 因 此 会 议 记 录 者 应 该 在 会 后 及 时 将 会 议 记 录 发 送 给 相关 
人 员 ， 并 保证 后 续 行 动 都 及 时 实施 。 


(7) 不 要 忽视 附加 的 培训 作用 


评审 是 手段 ， 发 现代 码 缺 隐 ， 提 高 代码 质量 和 团队 人 员 的 编码 水 
平 才 是 目的 ， 因 此 评审 过 程 中 别 忘 了 培训 的 附加 人 作用， 仲裁 者 应 该 针 
对 优秀 的 代码 鼓励 其 他 参与 者 借鉴 ， 而 对 于 一 些 警示 问题 代码 要 提醒 
参与 者 避 仿 。 


建议 78: 将 包 发 布 到 PyPIi 


建立 项 目 之 后 ， 添 加 了 相应 的 业务 代码 ， 并 通过 测试 之 后 ， 束 可 
以 考虑 发 布 给 下 游 用 户 了 。 如 果 是 项 目 内 部 协作 ， 把 项 目 打 一 个 zip 包 
或 者 tar ball 发 出 去 ， 最 简单 不 过 了 “。 不 过 尽管 如 此 人 简单，setuptools 仍 
然 提 供 了 完善 的 文 持 。 


>sudo python setup.py sdist --formats=zip,gztar 
running sdist 

running check 

creating arithmetic-1.0 

making hard links in arithmetic-1.0... 

hard linking arithmetic.py -> arithmetic-1.0 

hard linking setup.py -> arithmetic-1.0 

creating dist 

creating 'dist/arithmetic-1.0.zip' and adding 'arithmetic-1.0' to it 
adding 'arithmetic-1.0/arithmetic.py' 

adding 'arithmetic-1.0/PKG-INFO' 

adding 'arithmetic-1.0/setup.py' 

Creating tar archive 

removing 'arithmetic-1.0' (and everything under it) 


setuptools 的 sdist 命 令 的 意思 是 构建 一 个 源 代码 发 行 包 ， 它 将 根据 
调用 setup() 范 数 时 给 定 的 实 参 将 整个 项 目 打 包 (和 压缩 ) 。 根 据 当 前 
的 平台 (操作 系统 ) 不 同 ， 产 出 的 文件 也 是 不 一 样 的 。 一 般 在 MS 
Windows 系 统 下 ， 产 生 .zip 格 式 的 压缩 包 ， 而 在 GNU Linux 或 Mac OS X 
系统 下 ， 产 生 .targz 格 式 的 压缩 包 。 考 虑 到 最 终 安 装 程 序 包 的 用 户 可 能 
在 不 同 的 系统 下 使 用 ， 需 要 产品 指定 〈 或 更 多 ) 格式 的 包 文件 ， 可 以 
使 用 --formats 参 数 。 如 上 列 指定 产生 .zip 格 式 和 .targz 格 式 。 最 终 产 生 
的 包 文 件 放 在 ./dist 目 录 下 。 


>J]S dist 
arithmetic-1.0,tar.gz arithmetic-1.0.zip 


产生 这 两 个 包 以 后 ， 就 可 以 发 布 给 项 目的 下 游 合作 者 了。 发 布 方 
式 可 以 是 邮件 、FTP， 或 者 直接 使 用 IM 传 送 。 下 游 开 发 者 收 到 后 有 两 
种 安装 方式 : 一 种 是 解压 缩 ， 然 后 进入 setup.py 文 件 所 在 的 目录 执行 
python setup.py install 命 令 安装 ， 男 一 种 是 使 用 pip 安 装 ， 执 行 pip install 
arithmetic-1.0.tar.gz 即 可 。 


对 于 个 人 项 目 或 者 迷你 团队 而 言 ， 通 过 邮件 、FTP 或 者 IM 发 布 无 
可 厚 非 ， 但 如 果 是 较 大 的 团队 一 起 协作 一 个 项 目 ， 那 么 最 好 是 把 包 发 
布 到 PyPI 上 面 。 可 以 是 pypi.python.org 这 个 官方 的 PyPI， 也 可 以 是 团队 
架设 的 私有 PyPI。 在 这 里 ， 移 讲 一 下 怎么 把 包 发 布 到 官方 的 PyPI 。 


其 实 标准 库 distutils 自 号 已 经 市 有 发 布 到 PyPI 的 功能 ， 那 就 是 


register 和 和 upload 命令 。 


$ python setup.py --help-commands 
Standard commands: 


register register the distribution with the Python package index 


“upload upload binary package to PyPI 


register 命 令 用 以 在 PyPI 上 面 注册 一 个 包 ， 这 个 包 和 名 必须 是 尚未 使 
用 过 的 。 在 注册 包 名 之 前 ， 先 在 PyPI 上 注册 一 个 用 户 ， 可 以 通过 PyPI 
网 页 注册 ， 也 可 以 直接 使 用 register 命 令 提 供 的 选项 注册 。 


$ python setup.py register 


We need to know who you are, so please choose either: 
1. use your existing login, 
2. register as a new user, 
3., have the server generate a new password for you (and email it to you), or 
4. quit 
Your selection [default 1]: 


上 面 第 2 个 选项 殉 是 用 来 注册 新 用 户 的 ， 选 中 之 后 回 导 将 会 指引 用 
尸 输入 用 望 名、 密码 和 邮箱 等 信息 ， 很 快 瑟 可 以 注册 完成 ， 在 此 不 展 


开 说 了 “。 如 果 已 经 有 了 PyPI 账 号 ， 那 么 选择 第 1 个 选项 ， 输 入 用 户 和 名 和 
密码 ， 验 证 通过 以 后 ， ， 包 和 名 ， EB 够 成 

功 。 但 如 果 这 个 包 名 已 经 被 别 的 用 户 使 用 过 了 ， 那 会 引发 一 个 403 错 

误 ， 指 o 


$ python setup.py register -n 
running register 
running check 


Registering arithmetic to http://pypi.python.org/pypi 
Server response (200): OK 


包 名 注册 之 后 ， 束 可 以 把 包 上 传 到 PyPI 了 。 


$ python setup.py sdist upload 

running sdist 

running check 

writing manifest file "MANIFEST' 

creating arithmetic-1.0 

making hard links in arithmetic-1.0... 

hard linking arithmetic.py -> arithmetic-1.0 

hard linking setup.py -> arithmetic-1.0 

Creating tar archive 

removing 'arithmetic-1.0' (and everything under it) 
running upload 

Submitting dist/arithmetic-1.0.tar.gz to http://pypi.python.org/pypi 
Server response (200): OK 


上 传 之 后 ， 就 可 以 通知 合作 者 使 用 setuptools/pip 安 装 了 。 


pip install arithmetic 


第 8 章 ” 性 能 谢 析 与 优化 


“选择 了 脚本 语言 束 要 不 受 其 速度 ”， 这 人 句 话 在 某 种 程度 上 说 明了 
Python 作 为 脚本 语言 在 效率 和 性 能 方面 的 一 个 不 足 之 处 。 但 这 并 没有 
你 想象 的 那么 全 张 ， 也 不 是 说 你 只 能 坐 以 待 毙 。 性 能 与 效率 与 很 多 方 
面 妃 轧 相 关 ， 如 软件 设计 、 运 行 环境 、 网 络 市 宽 、 更 优化 的 代码 等 。 
代码 优化 并 不 神秘 ， 它 建立 在 软件 算法 和 硬件 体系 结构 等 知识 层面 之 
上 ， 有 一 定 的 方法 可 以 遵循 。 本 章 将 着 重 从 代码 层面 来 探讨 如 何 提高 
Python 的 效率 和 性 能 ， 并 重点 分 析 一 些 第 见 的 优化 方法 和 技巧 。 


建议 79: 了 人 解 代码 优化 的 基本 原则 


代码 优化 是 指 在 不 改变 程序 运行 结果 的 前 提 下 使 得 程序 运行 的 效 
率 更 高 ， 优 化 的 代码 意味 着 运行 速度 更 快 或 者 占有 的 资源 更 少 。 进 行 
代码 优化 时 需要 记 住 以 下 几 点 原则 。 


(1) 优先 保证 代码 是 可 工作 的 


Donald Knuth 曾 说 过 ， 过 早 优化 是 编程 中 一 切 “ 罪 恶 * 的 根源 。 很 
多 人 热衷 优化 ， 一 开始 写 代 码 就 奔 着 性 能 这 个 目标 。 但 事实 真相 是 “上 
正确 的 程序 更 快要 比 让 快速 的 程序 正确 容易 得 多 。” 因 此 优化 的 前 提 是 
代码 满足 了 基本 的 功能 需求 ， 是 可 工作 的 。 过 早 地 进行 优化 可 能 会 名 
视 对 总 体 性 能 指标 的 把 握 ， 忽 略 可 移植 性 、 可 读 性 、 内 聚 性 等 ， 更 何 
况 每 个 模块 其 至 每 行 优化 的 代码 并 不 一 定 能 够 市 来 整体 运行 性 能 民 
好 ， 因 为 性 能 瓶颈 可 能 出 现在 意 想 不 到 的 地 方 ， 如 模块 与 模块 之 间 的 
交互 和 通信 等 ， 在 得 到 整体 视图 之 前 不 要 主 次 业 倒 。 需 要 说 明 的 是 ， 
这 并 不 是 不 鼓励 你 在 代码 实现 的 过 程 中 去 尝试 更 优 的 实现 方式 ， 在 编 
码 的 过 程 中 同样 应 该 遵循 Python 的 哲学 和 本 书 前 面 章 和 所 提倡 鸭 风格 
与 语法 ， 尽 量 选 择 更 好 的 算法 或 者 实现 。 


(2) 权衡 优化 的 代价 


优化 是 有 代价 的 ， 想 解决 所 有 性 能 问题 几乎 是 不 可 能 的 。 从 代码 
本 刁 的 角度 来 讲 ， 可 能 面临 着 牺牲 时 间 换 空间 或 者 牺牲 空间 换 时 间 的 
抉择 ， 从 项 目的 角度 来 讲 ， 质 量 、 时 间 和 成 本 这 三 者 之 间 “ 铁 三 角 ” 关 
系 不 会 改变 ， 如 采 性 能 是 权衡 质量 的 一 个 指标 的 话 ， 更 好 的 性 能 意味 


着 需要 更 多 的 时 间 和 人 力 或 者 更 强大 的 硬件 资源 ， 从 用 户 的 角度 来 
看 ， 根 据 80/20 法 则 ， 最 终 影响 用 户 体 验 的 可 能 也 就 是 20% 的 性 能 问 
题 。 因 此 ， 优 化 需要 权衡 代价 ， 如 果 在 项 目 时 间 紧 迫 的 情况 下 能 够 仅 
仅 通 过 增加 硬件 人质 源 丈 解决 主要 性 能 问题 ， 不 妨 选择 更 强大 的 部 闭环 
境 ， 或 者 在 已 经 实现 的 代码 上 进行 修 修 补 补 试图 进行 优化 代码 所 耗费 
的 精力 超过 重 构 的 代价 时 ， 重 构 可 能 是 更 好 的 选择 。 


(3) 定义 性 能 指标 ， 集 中 力量 解决 首要 问题 


你 可 能 曾经 听 到 过 客户 这 样 的 声音 : 我 希望 这 个 功能 反应 更 快 一 
点 。 这 很 好 ， 起 码 你 明日 优化 的 目标 所 在 ， 而 不 至 于 像 个 “无 头 区 
蝇 " 一 样 抓 不 住 客户 需要 的 方向 而 导致 最 后 落 个 费力 不 讨好 的 结果 。 但 
这 还 不 够 好 ， 为 什么 ? 什么 标准 才 符合 更 快 一 点 这 个 说 法 呢 ? 更 快 到 
压 十 多 快 ? “一 千 个 人 心中 就 有 一 干 个 哈姆雷特 ”*”， 我 们 必须 制定 出 可 
以 衡量 快 的 具体 指标 ， 比 如 在 什么 样 的 运行 环境 下 (如 网 络 速 度 、 硬 
件 资源 等 ， 、 运 行 什 么 样 的 业务 响应 时 间 的 范围 是 多 少 秒 。 这 里 要 着 
重 强调 的 写 : 精确 ， 可 度量 。 更 快 、 非 常 快 这 些 都 是 描述 性 的 词语 ， 
并 不 可 度量 ， 不 同 的 人 有 着 不 同 的 衡量 标准 ， 可 能 对 于 一 个 请 求 你 认 
为 2 秒 内 能 够 返回 结果 已 经 够 快 了 ， 但 业务 人 员 所 理解 的 够 快 可 能 是 
0.5 秒 内 ， 侦 兰 由 此 产生 。 如 有 果 你 的 客户 并 不 能 提出 专业 精确 的 目标 ， 
那么 相关 需求 人 员 或 者 技术 人 员 也 一 定 要 引导 和 帮助 客户 (如 运用 
SMART 法 则 等 ) 最 终 达成 契约 。 另 外 ， 人 性 能 优化 一 定 要 站 在 客户 和 产 
品 本 喘 的 角度 上 分 析 而 不 是 开发 人 员 的 角度 上 。 为 什么 ?因为 客户 才 
苹 我 们 服务 的 主要 对 象 ， 他 们 的 想法 才能 代表 最 终 的 需求 。 比 如 开发 
人 员 可 能 觉得 安 朔 的 时 间 过 长 而 人 花费 不 少 精 力 进 行 优 化 ， 但 客户 真正 
关心 的 可 能 是 在 系统 上 部 署 一 个 新 的 服务 的 啊 应 时 间 。 因 此 ， 在 进行 
优化 之 前 ， 一 定 要 针对 客户 关心 的 问题 进行 主 次 排列 ， 并 集中 力量 解 
决 主要 问题 。 


(4) 不 要 忽略 可 读 性 


优化 不 能 以 牺牲 代码 的 可 读 性 ， 甚 至 市 来 更 多 的 副作用 为 代价 。 
实际 应 用 中 经 稼 运行 的 代码 可 能 只 占 一 小 部 分 ， 但 几乎 所 有 代码 都 是 
需要 维护 的 ， 因 此 在 代码 的 可 读 性 、 可 维护 性 以 及 更 优化 的 性 能 之 间 
需要 权衡 。 如 有 果 优 化 的 结果 是 使 代码 变 得 难以 阅读 和 理解 ， 可 能 停止 
优化 或 者 选择 其 他 奉 代 设计 更 好 。 


最 后 需要 说 明 的 是 ， 优 化 无 极限 ， 不 要 陷入 怪圈 ， 什 么 时 候 应 该 
优化 、 什 么 时 候 应 该 停止 优化 心里 得 有 谱 ， 性 能 较 优 的 代码 确实 很 吸 
引信 > 但 过 狗 让 以 六 


建议 80: 借助 性 能 优化 工具 


“ 工 欲 兽 其 事 ， 必 先 利 其 器 >”， 好 的 工具 能 够 对 性 能 的 提升 起 到 非 
常 天 键 的 作用 。 稼 见 的 性 能 优化 工具 有 Psyco、Pypy 和 cPython 等 。 本 
节 我 们 将 简单 讨论 前 两 者 ，cPython 性 能 优化 具体 使 用 见 建 议 90 一 节 。 


(1) Psyco 


Psyco 是 一 个 just-in-time 的 编译 器 ， 它 能 够 在 不 改变 源 代码 的 情况 
下 提高 一 定 的 性 能 ，Psyco 将 操作 编译 成 部 分 优化 的 机 器 码 ， 其 操作 分 
成 三 个 不 同 的 级 别 ， 有 “运行 时 ”、“ 编 译 时 ”和 “虚拟 时 ”变量 ， 并 根据 
需要 提高 和 降低 变量 的 级 别 。 运 行 时 变量 只 是 常规 Python 解 释 器 处 理 
的 原始 字 节 码 和 对 象 结构 。 一 旦 Psyco 将 操作 编译 成 机 器 码 ， 那 么 编译 
时 变量 就 会 在 机 器 寄存 器 和 可 直接 访问 的 内 存 位 置 中 表示 。 同 时 
Python 能 高 速 缓存 已 编译 的 机 器 码 以 备 以 后 重用 ， 这 样 能 节省 一 点 时 
间 。 但 Psyco 也 有 其 缺点 ， 如 ， 其 本 吴 运 行 所 占 内 存 较 大 。2012 年 3 月 
12 日 ，Psyco 项 目 主页 上 宣布 Psyco 停 止 维 护 并 正式 结束 ， 由 Pypy 上 所 接 
替 。 到 结束 为 止 ，Psyco 也 没有 提供 对 Python2.7 有 版本 的 文 持 。 对 Psyco 
感 兴趣 的 读者 可 以 参考 其 主页 (http://psyco.sourceforge.net/) 了 解 更 多 


J 
言 息 。 


(2) Pypy 


Python 的 动态 编译 器 ， 是 Psyco 的 后 继 项 目 。 其 目的 是 ， 做 到 
Psyco 没 有 做 到 的 动态 编译 。Pypy 的 实现 分 为 两 部 分 ， 第 一 部 分 “用 
Python 实现 的 Python”， 这 里 虽然 是 这 么 说 ， 但 实际 上 它 是 使 用 一 个 名 


为 RPython 的 Python 子 集 实现 的 ，Pypy 能 够 将 Python 代码 转 成 
C、.NET、Java 等 语言 和 平台 的 代码 ;第 二 部 分 Pypy 集 成 了 一 种 编译 
rPython 的 即时 (JIT) 编译 器 ， 和 许多 编译 器 、 解 释 嚣 不同， 这 种 编译 
铬 不 关心 Python 代 码 的 词法 分 析 和 语法 树 ， 因 为 它 是 用 Python 语 言 写 
的 ， 所 以 它 直 接 利 用 Python 语言 的 Code Object 〈\Python 字 蔬 码 的 表 


示 ) ， 也 就 是 说 ，Pypy 直 接 分 析 Python 代 码 所 对 应 的 字 节 码 ， 这 些 字 


节 码 既 不 是 以 字符 形式 也 不 古 以 某 种 二 进 制 格式 人 存在 文件 中 。 如 图 
8-1 所 示 古 针对 同一 段 代码 分 别 使 用 Python 和 Pypy 运 行 得 到 的 时 间 消 耗 


从 图 8-1 中 可 见 看 出 ， 使 用 pypy 来 编译 和 运行 程序 ， 随 着 运算 规模 
的 扩大 ， 其 效率 显著 提高 。 
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图 8-1 Python 与 Pypy 运 行 时 间 比 较 


建议 81: 利用 cProfile 定 位 性 能 瓶颈 


程序 运行 慢 的 原因 有 很 多 ， 但 真正 的 原因 往往 是 一 两 段 设计 并 不 
那么 民 好 的 不 起 眼 的 程序 ， 比 如 对 一 系列 元 素 进 行 自 定义 的 类 型 转换 
等 。 程 序 性 能 影响 往往 符合 80/20 法 则 ， 即 20% 的 代码 的 运行 时 间 占 用 
了 80% 的 总 运行 时 间 《实际 上 ， 比 例 要 稚 张 得 多 ， 通 党 是 儿 十 行 代码 占 
用 了 95% 以 上 的 运行 时 间 ) ， 所 以 如 何 定 位 瓶颈 所 在 很 有 难度 ， 靠 经 验 
征 很 难 找 出 造成 性 能 瓶颈 的 代码 的 。 这 时 候 ， 我 们 需要 一 个 工具 大 
忙 ， 下 文通 过 cProfile 分 析 相 关 的 独立 模块 ， 基 本 上 解决 了 定位 性 能 瓶 
贷 问 题 。 


profile 是 Python 的 标准 库 。 可 以 统计 程序 里 每 一 个 函数 的 运行 时 
间 ， 并 且 提 供 了 多 样 化 鸭 报表 ， 而 cProfile 则 是 它 的 C 实 现 版 本 ， 齐 析 过 
程 本 身 需 要 消耗 的 资源 更 少 。 所 以 在 Python 3 中 ，cProfile 代 替 了 
profile， 成 为 默认 的 性 能 谢 析 模块 。 使 用 cProfile 来 分 析 一 个 程序 很 简 
单 ， 以 下 面 一 个 程序 为 例 : 


sum = 0 

for i in range(100): 
Um += 工 
return sum 

if name == "_ main __" 
foo() 


现在 要 用 profile 分 析 这 个 程序 。 很 简单 ， 把 if 程序 块 改 为 如 下 : 


if name == "main _" 
import cprofile 
cProfile.run("foo()") 


我 们 仅仅 是 import 了 cprofile 这 个 模块 ， 然 后 以 程序 的 入 口 画 数 名 为 
参数 调用 了 cprofile run 这 个 画 数 。 程 序 运行 的 输出 如 下 : 


5 function calls in 0.143 CPU seconds Ordered by: standard name 
ncalls tottime percall cumtime percall filename:lineno(function) 


1 0.000 0.000 0.000 0.000 :0(range) 

1 0.143 0.143 0.143 0.143 :0(setprofile) 

1 0.000 0.000 0.000 0.000 <string>:1(?) 

1 0.000 0.000 0.000 0.000 prof1.py:1(foo) 

1 0.000 0.000 0.143 0.143 profile:0(foo()) 

0 0.000 0.000 profile:0(profiler) 


上 面 显 示 了 prof1.py 里 函数 调用 的 情况 ， 根 据 数据 我 们 可 以 清楚 地 
看 到 foo() 范 数 占 用 了 100% 的 运行 时 间 ，foo0 函 数 是 这 个 程序 里 名 副 其 
实 的 热点 。 


除了 用 这 种 方式 ，cProfile 还 可 以 直接 用 Python 解释 喜 调 用 cProfile 
模块 来 剖析 Python 程 序 。 如 在 命令 行 界面 输入 如 下 命令 : 


python -m cProfile prof1.py 


产生 的 输出 跟 直 接 修 改 脚本 调用 cProfile.run0 函 数 有 一 样 的 功效 。 


cProfile 的 统计 结果 分 为 ncalls 、tottime 、percall 、cumtime、 
percall、filename:lineno(function) 等 若干 列 ， 如 表 8-1 所 示 。 


表 8-1 cProfile 的 统计 结果 以 及 各 项 意义 


统 计 项 意 义 
ncalls 油 数 的 被 调用 次 数 
tottime 泗 数 总 计 运 行 时 间 ， 不 含 调 用 的 函数 运行 时 间 
percall 油 数 运行 一 次 的 平均 时 间 ， 等 于 tottime/ncalls 
cumtime 油 数 总 计 运 行 时 间 ， 含 调用 的 函数 运行 时 间 
percall 油 数 运行 一 次 的 平均 时 间 ， 等 于 cumtime/ncalls 
filename:lineno(function) 油 数 所 在 的 文件 名 、 子 数 的 行 号 、 晴 数 名 


通 单 情况 下 ，cProfile 的 输出 都 直接 输出 到 命令 行 ， 而 且 玖 认 是 按 
照 文 件 名 排序 输出 的 。 这 惑 给 我 们 造成 了 障碍 ， 我 们 有 时 候 布 望 能 够 
把 输出 保存 到 文件 ， 并 且 能 够 以 各 种 形式 来 查看 结 末 。cProfile 简 单 地 


支持 了 一 些 需求 ， 我 们 可 以 在 cProfile.run() 范 数 里 再 提供 一 个 实 参 ， 就 
是 你 存 输出 的 文件 名 。 同 样 ， 在 命令 行 参数 里 ， 我 们 也 可 以 加 多 一 个 
参数 ， 用 来 保存 cProfile 的 输出 。 


cProfile 解 决 了 我 们 的 对 程序 执行 性 能 剖析 的 需求 ， 但 还 有 一 个 需 
求 : 以 多 种 形式 查看 报表 以 便 快 速 定 位 瓶 贷 。 我 们 可 以 通过 pstats 柑 块 
的 为 一 个 类 Stats 来 解决 。Stats 的 构造 画 数 氨 受 一 个 参数 一 一 整 古 
cProfile 的 输出 文件 名 。Stats 提 供 了 对 cProfile 输 出 结果 进行 排序 、 输 出 
控制 等 功能 。 如 我 们 把 前 文 的 程序 改 为 如 下 : 


# 
… 略 

if name == "__main 
import cprofile 
cProfile.run("foo()", "prof.txt") 
import pstats 
p = pstats.Stats("prof.txt") 
p.sort_stats("time").print_stats() 


引入 pstats 之 后 ， 将 cProfile 的 输出 按 函 数 占 用 的 时 间 排 序 ， 输 出 如 
下 : 


Sun Jan 14 00:03:12 2007 prof.txt 
5 function calls in 0.002 CPU seconds 
Ordered by: internal time 
ncalls tottime percall cumtime percall filename:lineno(function) 


下 0.002 0.002 0.002 0.002 :0(setprofile) 

1 0.000 0.000 0.002 0.002 profile:0(foo()) 

由 0.000 0.000 0.000 0.000 G:/prof1.py:1(foo) 
1 0.000 0.000 0.000 0.000 <string>:1(?) 

1 0.000 0.000 0.000 0.000 :0(range) 

0 0.000 0.000 profile:0(profiler) 


Stats 有 寿 干 个 男 数 ， 这 些 函 数组 合 能 输出 不 同 的 cProfile 报 表 ， 功 
能 非常 强大 ， 如 和 8-2 所 示 。 下 面 简单 地 介绍 一 下 这 些 函 数 。 


表 8-2 Stats 函 数 以 及 对 应 作用 


函 数 函数 的 作用 


strip_dirs() 用 以 除去 文件 名 前 名 的 路 径 信息 
add(filename.[*…]) 把 profile 的 输出 文件 加 入 Stats 实例 中 统计 
dump_stats(filename) 把 Stats 的 统计 结果 保存 到 文件 
sort_stats(key.[*…]) 最 重要 的 一 个 函数 ， 用 以 排序 profile 的 输出 
reverse_order() 把 Stats 实例 里 的 数据 反 序 重 排 

Print_ stats([restriction.…]) 把 Stats 报表 输出 到 stdout 
print_callers([restriction,*…]) 输出 调用 了 指定 的 函数 的 相关 信息 
print_callees([restriction.…]) 输出 指定 的 函数 调用 过 的 函数 的 相关 信息 


这 里 最 重要 的 琅 数 束 是 sort_stats 和 print_stats， 通 过 这 两 个 函数 我 
们 几乎 可 以 用 适当 的 形式 浏览 所 有 的 信息 了 。 下 面 来 详细 介绍 一 下 。 


1) sort_stats0) 接 收 一 个 或 者 多 个 字符 串 参 数 ， 如 time、name 等 ， 
表明 要 根据 哪 一 列 来 排序 。 这 相当 有 用 ， 例 如 我 们 可 以 通过 用 time 为 
key 来 排序 得 知 最 消耗 时 间 的 函数 ， 也 可 以 通过 cumtime 来 排序 ， 获 知 
总 消耗 时 间 最 多 的 函数 。 这 样 我 们 优化 的 时 候 残 有 了 针对 性 ， 可 以 做 
到 事半功倍 了 


sort_stats 可 接受 的 参数 如 表 8-3 所 示 。 
表 8-3 sort _ stats 可 接受 参数 列表 


参 数 参数 对 应 的 意义 

ncalls 被 调用 次 数 

cumulative 图 数 运行 的 总 时 间 

file 文件 名 

module 模块 名 

pcalls 简单 调用 统计 (兼容 旧版 ， 未 统计 递归 调用 ) 
line 行 号 

name 函数 名 

nfl Name、 file、 line 

stdname 标准 函数 名 


time 国 数 内 部 运行 时 间 〈 不 计 调 用 子 函 数 的 时 间 ) 


2) print_stats 输 出 最 后 一 次 调用 sort_stats 之 后 得 到 的 报表 。 
print_stats 有 多 个 可 选 参 数 ， 用 以 往 选 输出 的 数据 。print_stats 的 参数 可 
以 是 数字 也 可 以 是 Perl 风 格 的 正则 表达 式 。 相 天 的 内 容 通 过 其 他 渠道 了 
解 ， 这 里 束 不 详 述 啦 。 仅 举 以 下 3 个 例子 ; 


print_stats(".1", "foo:") 


这 个 语句 表示 将 stats 里 的 内 容 取 前 面 的 10%， 然 后 再 将 包 
含 “foo:” 这 个 字符 串 的 结 来 输出 。 


print_stats("foo:",".1") 


这 个 语句 表示 将 stats 里 的 包含 “foo:” 字 符 串 的 内 容 的 前 10% 输 出 。 


print_stats(10) 


这 个 语句 表示 将 stats 里 前 10 条 数据 输出 。 


实际 上 ，profile 输 出 结 采 的 时 候 相 当 于 如 下 调用 了 Stats 的 函数 : 


p.strip_dirs().sort_ stats(-1).print_stats() 


其 中 sort_stats 函 数 的 参数 是 -1， 这 也 是 为 了 与 旧版 本 兼容 而 保留 
的 。sort_stats 可 以 接受 -1、0、1、2 之 一 ， 这 4 个 数 分 别 对 
以 “stdname”`\“calls”、“time” 和 “cumulative”。 但 如 果 你 使 用 了 数字 为 
参数 ， 那 么 pstats 只 按照 第 一 个 参数 进行 排序 ， 其 他 参数 将 被 忽略 。 


除了 编 编程 接口 外 ，pstats 还 提供 了 友好 的 命令 行 交 互 环境 ， 在 命 
令 行 执行 python-m pstats 就 可 以 进入 交互 环境 ， 在 交互 环境 里 可 以 使 用 
read 或 add 指 令 读 入 或 加 载 剖 分 结果 文件 ，stats 指 令 用 以 查看 报表 ， 


callees 和 callers 指 令 用 以 查看 特定 函数 的 被 调用 者 和 调用 者 。 如 图 8-2 所 
示 是 pstats 的 截图 ， 标 识 了 它 的 基本 使 用 方法 。 


vc WINNT\systema2\cmd,.exe - Python 


C:\Documents and Settings dninistratdr>python -mm pstats | 运行 pstats 


Jelcome to the nrofile statistics hrowser- 
a 在 % 提示 符 后 输入 help 指令 查看 帮助 


Documented commands type help 《topic>>: 


OPF add callees callers quit PPead eueFrse SoPt Stats Sthip | 


有 可 用 的 指令， 可 以 使 用 help XX 查看 XX 指令 的 帮助 


“ read H:\laiscode\a_star\astar.prof ) i | 


SEEEIITTE TFT TEST 了 人 只 输出 10% 的 国都 二 
Med Jan 39 16:49:12 2008 Pe] Eh 拒 家 ， 公 畏 寺 10% 的 羡 冯 | 


29693 function calls in 1.893 CPU seconds 报表 内 容 


Random listing order Was used 
List reduced from 38 to 4 due to restriction <@.18600000608000000801> 


nealls tottime percall cumtime percall filename:linenofunction> 
5713 日 .723 5 9.723 5 
Dhe_in_close) 
33818 8B.166 0D.D60 [5 0.600 :GCsqrt> 
1 日 .9500 dH.060 1.887 1.887 H:\laiscode\a_star\a_star.py:2C<mo 
le>》 
1 8.004 0.084 1.892 1.892 :GCexecfile> 


:\laiscode\a_star\astar .profx 


图 8-2 ”pstats 输 出 信息 截图 


如 有 果 我 们 某 天 心血 来 潮 ， 想 知道 向 list 里 添加 一 个 元 素 需 要 多 少时 
间 ， 或 者 想 知 道 抛 出 一 个 异常 需要 多 少时 间 ， 那 使 用 profile 束 好 像 用 牛 
刀 杀 鸡 了 。 这 时 候 一 般 我 们 爷 手动 写 如 下 一 段 代 码 : 


import time 
def profile() : 
bgn = time.time() 
for i in xrange(100000 ) : 
[].append(1) 


return time.time() - bgn 
print profile() 


为 了 测定 一 条 语句 ， 写 了 好 几 条 代码 ， 真 的 让 人 汗颜 。 更 好 的 选 
择 是 timeit 模 块 。 


timeit 除 了 有 非常 友好 的 编程 接口 ， 也 同样 提供 了 友好 的 命令 行 接 
口 。 站 和 完 来 看 看 编程 接口 。timeit 模 块 包 含 一 个 类 Timer， 它 的 构造 玉 数 
如 下 : 


class Timer( [stmt='pass' [, setup='pass' [, timer=<timer function>]]]) 


stmt 参 数 是 字符 串 形式 的 一 个 代码 段 ， 这 个 代码 段 将 被 评测 运行 时 
闻 ; setup 人 参数 用 以 设置 stmt 的 运行 环境 ; timer 可 以 由 用 户 使 用 目 定义 
精度 的 计时 函数 。 

timeit.Timer 有 3 个 成 员 函 数 ， 人 简单 介 绍 如 下 : 


timeit( [number=1000000] ) 


timeit() 执 行 一 次 Timer 构 造 画 数 中 的 setup 语 句 之 后 ， 束 重复 执行 
number 次 stmt 语 句 ， 然 后 返回 总 计 运 行 消耗 的 上 时间。 


repeat( [repeat=3 [, number=1000000]]) 


repeat() 琅 数 以 number 为 参数 调用 timeit 函 数 repeat 次 ， 并 返回 总 计 
运行 消耗 的 时 间 。 


print_exc( [file=None]) 


print_exc0 函 数 用 以 代替 标准 的 tracback， 原 因 在 于 print_exc0O 会 输 
出 错 行 的 源 代 码 。 如 : 


>>> t = timeit.Timer("t = foo()/n;print t") 
>>> t,timeit() 
Traceback (most recent call last): 
File "<pyshell#12>", line 1, in -toplevel- 
t.timeit() 
File "E:/Python27/1ib/timeit.py", line 158, in timeit 
return self.inner(it, self.timer) 
File "<timeit-src>", line 6, in inner 
foo() 
NameError: global name 'foo' is not defined 


在 这 里 NameError 有 点 让 人 迷惑 ， too 木 大义 到 底 是 来 目 被 timeit 的 
那 段 代 码 还 是 调用 timeit 的 代码 本 喘 呢 ? 这 个 场景 职 是 print_exc0O 国 数 的 
用 武之 地 了 。 


>>> try: 
t.timeit() 
except: 
t.print_exc() 
Traceback (most recent call last): 
File "<pyshell#17>", line 2, in ? 
File "E:/Python27/1ib/timeit.py", line 158, in timeit 
return self.inner(it, self.timer) 
File "<timeit-src>", line 6, in inner 
t = foo() 
NameError: global name 'foo' is not defined 


可 以 看 到 traceback 里 原来 的 foo(0) 变 成 了 整 行 代码 t=foo()， 这 样 丰 是 
的 信息 能 够 加 速 定 位 错误 。 


除了 可 以 使 用 timeit 的 编程 接口 外 ， 我 们 也 可 以 在 命令 行 里 使 用 
timeit， 非 常 方便 。 


python -m timeit [-n N] [-r N] [-s S] [-t] [-c] [-h] [statement ...] 
其 中 参数 的 定义 如 下 : 


.-n N/--number=N，statement 语 句 执 行 的 次 数 ， 


-TIN/--repeat=N， 重 复 多 少 次 调用 timeit0， 默 认为 3， 


.-S S/--setup=S， 用 以 设置 statement 执 行 环境 的 语句 ， 默 认 
为 “pass” 6 


-t/--time， 计 时 函数 ， 除 了 Windows 平 台 外 默认 使 用 time.timeO 函 
Ro 


-Cc/--clock， 计 时 函数 ，Windows 平 台 默 认 使 用 time.clock0O 函 数 。 
-Vv/--Verbose， 输 出 更 大 精度 的 计时 数值 。 
-h/--help， 人 简单 的 使 用 帮助 。 


小 巧 实用 的 timeit 强 藏 了 无 限 的 潜能 等 得 你 去 发 据 。 如 本 市 开始 的 
例子 可 以 使 用 一 名 命令 行 命令 搞定 。 


$ python -m timeit "[].append(1)" 
1000000 loops, best of 3: 0.187 usec per loop 


建议 82: 使 用 memory_profiler 和 objgraph 
剖析 内 存 使 用 


Python 还 提供 了 一 些 工 具 可 以 用 来 查看 内 存 的 使 用 情况 以 及 追踪 
内 存 泄 露 (如 memory_profiler 、objgraph 、cProfile、PySizer 及 Heapy 
等 ) ， 或 者 可 视 化 地 显示 对 象 之 间 的 引用 (如 objgraph)” ， 从 而 为 发 
现 内 存 问题 提供 更 直接 的 证 据 。 本 节 最 后 我 们 再 来 看 看 
memory_profiler 和 objgraph 这 两 个 工具 的 使 用 。 


(1) memory_profiler 


安装 memory_profiler 可 以 使 用 命令 easy_install-U memory_profiler 
或 者 pipinstall-U memory_profiler， 也 可 进行 源码 安装 。 需 要 注意 的 
是 ， 在 Windows 平 台 上 需要 先 安装 依赖 包 psutil。memory_profiler 的 使 
用 非常 简 单 ， 在 需要 进行 内 存 分 析 的 代码 之 前 用 @profile 进 行 装饰 ， 
然后 运行 命令 python-m memory_profiler 文 件 名 ， 便 可 以 输出 每 一 行 代 
码 的 内 存 使 用 以 及 增长 情况 。 


import memory_profiler 
@profile 
def fibonacci(n): 


以 代码 memory_profiler_test.py 为 例 ， 输 出 列 分 别 对 应 为 行 号 、 内 
存 使 用 情况 、 内 存 增长 情况 以 及 行 所 对 应 的 内 容 。 如 下 所 示 : 


Line # Mem usage Increment Line Contents 
Q@profile 
8.648 MB 0.000 MB def fibonacci(n): 


11.500 MB 2.852 MB Ifn<0: 


return -1 
11.500 MB 0.000 MB elif n <= 1: 
11.500 MB 0.000 MB return 1 
11.500 MB 0.000 MB else: 
11.500 MB 0.000 MB return fibonacci(n -1) + fibo 


nacci(n -2) 


更 多 关于 memory_profiler 的 信息 可 以 参考 
https://pypi.python.org/pypi/memory_profiler ° 


(2) Objgraph 


Objgraph 的 安装 非常 简单 ， 可 以 使 用 命令 pip install objgraph， 或 
者 直接 从 https://pypi.python.org/pypi/objgraph 下 载 进行 源码 安 狼 。 
Objgraph 的 功能 大 致 可 以 分 为 以 下 3 类 : 


统计。 如 objgraph.count(typenamel[, objects]) 表 示 根 据 传 入 的 参数 
显示 被 gc 跟 踩 的 对 象 的 数目 ; 
objgraph.show_most_common_types([limit=10, objects]) 表 示 显 示 常 用 类 
型 对 应 的 对 象 的 数目 。 


:定位 和 过 小 对 象 。 如 objgraph.by_type(typenamel[, objects]) 表 示 根 
据 传 入 的 参数 显示 被 gc 跟踪 的 对 象 信息 ; objgraph.at(addr) 表 示 根 据 给 
定 的 地 址 返回 对 象 。 


.遍历 和 显示 对 象 图 。 如 objgraph.show_refs(objs[, max_depth=3， 
extra_ignore=(), filter=None, too_many=10, highlight=None， 
filename=None, extra_info=None, refcounts=False]) 表 示 从 对 象 objs 开 始 
显示 对 象 引 用 关系 图 ; objgraph.show_backrefs(objs[, max_depth=3， 
extra_ignore=(), filter=None, too_many=10, highlight=None, 
filename=None, extra_info=None, refcounts=False]) 表 示 显 示 以 objs 的 引 


用 作为 结束 的 对 象 关系 图 。 


更 多 关于 objgraph 使 用 的 API 文 档 参 见 
http://mg.pov.lt/objgraph/objgraph.html。 下 面 来 看 使 用 objgraph 的 两 个 简 
单 的 例子 。 其 中 第 一 个 例子 生成 对 象 的 引用 关系 图 ， 第 二 个 显示 不 同 


类 型 对 象 的 数目 。 
list 
3 items 


list 
2 items 


图 8-3 ”对象 x 的 引用 关系 图 


1) 生成 对 象 x 的 引用 关系 图 。 生 成 的 关系 图 如 图 8-3 所 示 。 具 体 代 
码 如 下 : 


>>> import pe sm 
S33 YE ['a T Ls T 3 
>>> objgraph. ee ee 


2) 显示 常用 类 型 不 同类 型 对 象 的 数目 ， 限 制 输出 前 3 行 。 代 码 如 


>>> objgraph.show_most_common_types(limit = 3) 
wrapper_descriptor 1031 


function 975 
builtin _ function _or_method 615 


一 一- 


建议 83: 努力 降低 算法 复杂 度 


同一 问题 可 用 不 同 算法 解决 ， 而 一 个 算法 的 优 劣 将 直接 影响 程序 
的 效率 和 性 能 。 算 法 的 评价 主要 从 时 间 复 杂 度 和 空间 复杂 度 来 考虑 。 
空间 复杂 度 的 分 析 相 对 来 说 要 简单 ， 并 旦 在 当前 的 计算 硬件 资源 发 展 
形势 下 ， 对 空间 复杂 度 的 关注 远 没 有 时 间 复 杂 度 高 。 因 此 降低 算法 的 
复杂 度 主要 和 集中 在 对 其 时 间 复 杂 度 的 考量 ， 本 章 侧 重 考 虑 时 间 复 厅 
度 。 算 法 的 时 间 复 杂 度 是 指 算法 需要 消耗 的 时 间 资 源 ， 常 使 用 大 写字 
母 O 表 示 。 如 插入 排序 的 时 间 复 杂 度 为 O(n2)， 快 速 排序 的 最 坏 运行 时 
间 是 O(n2)， 但 是 平均 运行 时 间 则 是 O(n log n)。 同 一 算法 对 应 的 不 同 代 
码 实现 的 性 能 差异 可 能 仅仅 体现 在 其 系数 上 ， 但 数量 级 上 仍然 在 同一 
水 平 ， 但 不 同时 间 复 杂 度 的 算法 随 着 计算 规模 的 扩大 带 来 的 性 能 差别 
则 较为 明显 。 下 面 是 算法 时 间 复 杂 度 大 0 的 排序 比较 ; 


O(1)<O(log* n)<O(n)<O@n log n)<O(n * )<O(c? )<O(n!)<Om 7) 


因此 对 算法 改进 的 目的 是 尽量 往 时 间 复 杂 度 较 低 的 O 靠 近 。 要 降低 
算法 的 复杂 度 ， 首 先 要 对 算法 复杂 度 进行 分 析 。 算 法 分 析 建 立 在 一 定 
的 假设 前 提 上 : 即 一 台 给 定 的 计算 机 执行 每 一 条 指令 的 时 间 是 确定 
的 ， 因 此 ， 对 于 获取 字典 中 某 个 key 对 应 的 值 ， 其 时 间 复 杂 度 为 0(1)， 
查找 列表 中 某 个 元 素 ， 其 时 间 复 杂 度 最 优 为 0(1)， 最 坏 的 情况 为 O(n)。 
下 面 的 示例 中 用 于 求 两 个 列表 交集 ， 即 使 函数 中 存在 条 件 分 支 ， 虽 然 证 
部 分 运算 的 时 间 复 杂 度 为 0(1)， 但 else 部 分 需要 循环 遍历 两 个 列表 ， 其 
时 间 复 杂 度 为 O(n2)， 因 此 最 终 的 算法 复杂 度 为 O(n2)。 


def intersection1i(list1,1ist2): 
result = 
If len(list1)<5: # 
寺 间 复杂 度 为 0(1 
print list1 


a else: 
时 间 复 杂 度 为 0(n2 ) 


for item in list1: 
if item in list2: 
result[item] = True 
return result.keys() 


需要 特别 说 明 ， 算 法 的 复杂 度 分 析 的 粒度 非常 重要 ， 其 前 提 一 定 
是 粒度 相同 的 指令 执行 时 间 近 似 ， 于 万 不 能 将 任意 一 行 代码 直接 当做 
O(1) 进 行 分 析 。 例 如 上 面 的 例子 中 如 有 果 有 其 他 芳 数 再 调用 
intersection1， 纵 然 在 调用 函数 中 只 有 一 行 代 码 ， 该 行 代码 的 时 间 复 杂 
度 仍 然 要 按照 Oo2) 计 算 。 另 外 ， 算 法 复杂 度 分 析 建 立 在 同一 级 别 语言 
实现 的 基础 上 ， 如 有 果 Python 代 码 中 舍 有 C 实 现 的 代码 ， 于 万 不 能 将 两 者 
混在 一 起 进行 评估 。 关 于 更 多 算法 分 析 的 思想 和 方法 ， 读 者 可 以 查看 
数据 结构 与 算法 相关 资料 。 


Python 常见 数据 结构 基本 操作 的 时 间 复 杂 度 如 表 8-4 所 示 。 
表 8-4 ”常见 数据 结构 基本 操作 的 时 间 复 洒 度 


区 追加 、 取 元 素 的 值 ， 给 某 个 元 素 赋 值 O(1) 
插入 、 删 除 某 个 元 素 ， 迁 代 操作 OU 
切片 操作 I 


获取 修改 元 素 的 值 ， 删 除 OO 
迁 代 操作 On) 
入 列 、 出 列 (包括 左边 出 入 列 ) O() 
collections.deque O( 朋 
删除 元 素 O09 


建议 84: 掌握 循环 优化 的 基本 拉 蕊 


循环 的 优化 应 遵循 的 原则 是 尽量 减少 循环 过 程 中 的 计算 量 ， 多 重 


循环 的 情形 下 尽量 将 内 层 的 计算 提 到 上 一 层 。 


1) 减少 循环 内 部 的 计算 。 下 面 两 个 示例 实现 的 是 同一 功能 ， 但 提 
倡 使 用 第 二 种 循环 实现 ， 因 为 第 一 种 循环 中 d=math.sqrt(y) 位 于 循环 内 
部 ， 每 次 循环 过 程 中 都 会 重新 计算 一 过 ， 无 形 中 增加 了 系统 开销 。 测 
试 结 采 表 明 ， 第 二 种 运算 的 计算 速率 比 第 一 种 运算 的 速率 快 40% 一 


60% ° 
示例 一 : 


for i in range(iter): 
d=math. sqrt(y) 
j+=i*d 


而 侈 一 


d=math. sqrt(y) 
for i in range(iter): 
Jj+=i*d 


2) 将 显 式 循环 改 为 隐 式 循环 。 假 设 求 等 差 数 列 1， 


和 ， 可 以 直接 通过 如 下 循环 来 计算 : 


Sum = 0 
for i In xrange(n+1): 
sum = sum+i 


也 可 以 直接 写 出 得 到 计算 结果 的 值 : n*(n+1)/2。 显 然 直 接 计 算 表 
达 式 的 值 效 率 更 高 ， 程 序 中 如 果 有 类 似 的 情形 ， 可 以 将 显 式 循环 改 为 
隐 式 。 当 然 这 可 能 会 市 来 男 一 个 负面 影响 :牺牲 了 代码 的 可 读 性 。 因 
此 这 种 情况 下 清晰 、 恰 当 的 注释 是 非常 必要 的 。 


3) 在 循环 中 尽量 引用 局 部 变量 。 在 命名 空间 中 局 部 变量 优先 搜 
索 ， 因 此 局 部 变量 的 查询 会 比 全 局 变量 要 快 ， 当 在 循环 中 需要 多 次 引 
用 菏 一 个 变量 的 上 时候， 尽量 将 其 转换 为 局 部 变量 。 下 面 的 例子 中 如 果 
使 用 示例 二 代替 示例 一 ， 性 能 将 提高 10%~159%6。 


示例 一 : 


x = [10,34,56,78] 
def f(x): 
for i in xrange(len(x)): 
x[i] = math.sin(x[i]) 
return x 


示例 一 


def g(x): 
loc_sin = math,Ssin 
for i In xrange(len(x)): 
x[i] = loc_sin(x[i]) 
return x 


4) 关注 内 层 骸 套 循环 。 在 多 层 骸 套 循环 中 ， 重 点 关注 内 层 髓 套 循 
环 ， 尽 量 将 内 层 循环 的 计算 往 上 层 移 。 如 下 面 的 示例 一 中 ，v10] 在 第 
二 层 循环 for j in range(len(v2)) 时 针对 每 个 其 值 保 持 不 变 ， 因 此 可 以 在 
外 层 循环 中 使 用 临时 变量 寿 代 而 不 是 每 次 都 重新 计算 ， 如 示例 二 所 
> 


示例 一 : 


for i in range(len(v1)): 
for j in range(len(v2)): 
x = vi[i] + v2[j] 


示例 二 


for i in range(len(v1)): 
v1ii = v1i[i] 
for j in range(len(v2)): 
x = vii + v2[j] 


建议 85: 使 用 生成 喜 提 高 效率 


斐 波 那 契 数列 相信 大 家 都 不 防 生 ， 这 是 常见 的 编程 题目 ， 也 是 很 
多 书籍 中 喜欢 引用 的 例子 。 我 们 这 里 也 不 免 落 于 俗套 ， 束 以 这 个 例子 
开场 吧 。 裴 波 那 揣 是 一 个 简单 的 递归 数列 ， 数 列 满 足 这 样 的 规律 : 除 
了 前 两 个 数 ， 任 何其 他 数 部 可 以 由 其 前 面 两 个 数 相 加 得 到 ， 即 
f(N)=f(N-1)+f(N-2)，n>2。Python 中 有 多 种 方法 实现 这 个 数列 ， 我 们 来 
看 其 中 的 一 种 。 


>>> def fab(n): 
i,a,b = 0,0,1 


a a, 
不 借助 中 间 变 量 交 换 两 个 变量 的 方法 
和 i i+1 


return foblist 


>>> print fab(4) 
[1，1，2，3] 


想 一 想 ， 上 面 的 例子 有 没有 更 好 的 实现 方法 呢 ? 显然 有 ! 在 介绍 
具体 实现 之 前 我 们 先 来 了 解 生成 化 的 有 头 知识 。 


生成 喜 的 语法 在 Python2.2 中 束 引 入 了 ， 但 实际 应 用 过 程 中 还 是 有 
人 不 会 选择 使 用 它 ， 特 别 是 有 过 其 他 语言 基础 的 ， 主 要 是 思维 上 难以 
转换 过 来 。 生 成 费 的 概念 其 实 非 常 简 单 ， 如 果 一 个 范 数 体 中 包含 有 
yield 语 句 ， 则 称 为 生成 器 (generator) ， 它 是 一 种 特殊 的 迭代 器 
(iterator) ， 也 可 以 称 为 可 迭代 对 象 iterable) 。 可 友 代 对 象 、 迭 代 
句 、 生 成 侨 这 三 者 之 间 的 天 系 可 以 简单 地 表示 成 如 图 8-4 所 示 的 形式 。 


Iterables: 包含 有 ”getitem 人 0) 或 者 iter 0 方法 的 
数据 容 赤 对 象 


Iterator: 包 含有 next0 方 法 和 _iter_ 人 0 方法 


Generator : 包含 有 yield 语句 的 多 数 ， 
拥有 与 秋 代 絮 类 似 的 行为 


图 8-4 ”可 送 代 对 象 、 达 代 器 、 生 成 右 三 者 之 则 的 天 系 


对 生成 圳 的 调用 会 返回 一 个 迭代 器 ， 使 用 next0 方 法 可 以 获取 下 一 
个 元 素 或 者 抛 出 StopIteration 异 常 。 


>>> def mygen(x): 
下 让 for i in range(x): 
yield i 


>>> d = mygen(1) 
>>> d 

生成 器 对 象 ， 拥 有 iter() 
和 next() 

方法 


7 
<generator object mygen at Ox005162BO> 
>>> d.next() 
0 


>>> d.next() 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 


StopIteration 
>>> 


实际 上 当 需 要 在 循环 过 程 中 依次 处 理 一 个 序列 中 的 元 素 的 时 候 ， 
就 应 该 考虑 生成 器 。 当 然 ， 要 深入 理解 生成 器， 必须 透彻 理解 yield 语 
句 。yield 语 句 与 return 语 句 相 似 ， 当 解释 器 执行 遇 到 yield 的 时 候 ， 画 数 


会 自动 返回 yield 语 名 之 后 的 表达 式 的 值 。 不 过 与 return 不 同 的 是 ，yield 
语句 在 返回 的 同时 会 保存 所 有 的 局 部 变量 以 及 现场 信息 ， 以 便 在 欠 代 
句 调 用 next() 或 者 send() 方 法 的 时 候 还 原 ， 而 不 是 直接 交 给 垃圾 回收 器 
(return() 方 法 返回 后 这 些 信 息 会 被 垃圾 回收 器 处 理 ) 。 这 样 就 能 够 保 
证 对 生成 器 的 每 一 次 迭代 都 会 返回 一 个 元 素 ， 而 不 是 一 次 性 在 内 存 中 
生成 所 有 的 元 素 。 目 Python2.5 开 始 ，yield 语 句 变 为 表达 式 ， 可 以 直接 
将 其 值 赋 给 其 他 变量 ， 如 x=(yield y)。 结 合 一 个 例子 来 看 yield 语 句 在 生 
成 器 辑 数 调用 的 时 候 执 行 状态 ， 下 面 的 画 数 代表 数列 1，-3，5，-7， 


>>> def series(): 

i print "begin:" 
m=1.0; n = 1 
print "while begin" 


© 

while(1): 
@) 
Pe print "yield a data" 
A yield m/n 
® 
a m = m+2 
@ 
Ea n= n* -1 

print "end" 


上 上 面 的 代码 用 状态 机 可 以 表示 为 如 图 8-5 所 示 的 形式 。 状 态 机 中 状 
仿 1 表 示 从 函数 定义 到 标注 1 处 的 所 有 语句 的 集合 ， 状 态 2 表示 标注 2 的 
语句 ， 状 态 3 表示 标注 2 到 3 之 间 的 所 有 语句 的 集合 ， 状 态 4 表 示 从 标注 4 
后 到 结束 的 语句 。 


过 到 yield 语 句 函数 


循环 条 件 判 断 返回 并 保存 现场 
第 一 次 调用 


Cn d.next() 


d.next() 


图 8-5 ”示例 程序 的 状态 机 形式 的 表示 


运行 上 面 的 程序 你 会 惊讶 地 发 现 ， 即 使 while 中 的 条 件 永远 为 真 ， 
代码 也 个 会 陷入 无 限 循环 的 状态 ， 而 是 每 调用 一 次 next() 方 法 产生 一 个 
数 ， 这 样 生成 紫 的 优势 束 体 现 出 来 了 。 


>>> d = series() 
>>> d.next() 
第 一 次 调用 next 


” 仙 到 yield 
语句 返回 对 


应 的 值 并 保留 现场 

begin: 

while begin 

yield a data 

1.0 

>>> d.next() # 
之 后 每 次 调用 d. next() 


滞 生 之 后 光 集 -“ 司 


语句 开始 执行 ，4 

接续 到 2 

， 循 环 条 件 永远 为 真 ， 从 而 再 次 转 到 状态 3 
end 

yield a data 

-3.0 


# 


生成 万 的 优点 总 体 来 说 有 如 下 几 条 


生成 器 提供 了 一 种 更 为 便利 的 产生 迭代 器 的 方式 ， 用 户 一 般 不 需 
要 目 己 实现 _iter 和 next 方 法 ， 它 默认 返回 一 个 迭代 琅 。 


代码 更 为 简 污 、 优 雅 。 


.充分 利用 了 延迟 评估 (Lazy evaluation) 的 特性 ， 仅 在 需要 的 时 候 
才 产 生 对 应 的 元 丸 ， 而 不 是 一 次 生成 所 有 的 元 隶 ， 从 而 节省 了 内 存 空 
间 ， 提 高 了 效率 ， 理 论 上 无 限 循 环 成 为 可 能 而 不 会 导致 MemoryError， 
这 在 大 数据 处 理 的 情形 下 尤为 重要 。 


使 得 协同 程序 更 为 容易 实现 。 协 同 程序 是 有 多 个 进入 点 ， 可 以 挂 
起 恢复 的 函数 ， 这 基本 束 是 yield 的 工作 方式 。 Python2.5 之 后 生成 硕 的 
功能 更 加 完善 ， 加 入 了 sendO0、close0 和 throw0) 方 法 。 其 中 send0) 不 仅 可 
以 传递 值 给 yield 语 句 ， 而 且 能 够 恢复 生成 器 ， 因 此 生成 万 能 大 大 人 徐 化 
协同 程序 的 实现 。 


现在 我 们 回 过 头 来 看 看 本 广 开 头 的 例子 ， 使 用 生成 右 来 实现 是 不 
征 更 为 商 活 呢 ? 


>>> def fib(n): 
和 a= b=1 


for i in range(n): 
ield a 
a,b = b,a+b 


建议 86: 使 用 不 同 的 数据 结构 优化 性 能 


在 解决 性 能 问题 的 时 候 ， 如 果 已 经 到 了 非 改 代码 不 可 的 情况 ， 考 
虚 到 Python 中 的 查找 、 排 序 常 用 算法 都 已 经 优化 到 极点 (虽然 对 sort() 
使 用 key 参 数 比 使 用 cmp 参 数 有 更 高 的 性 能 仍然 值得 一 提 ) ， 那 么 首先 
应 当 想 到 的 十 使 用 不 同 的 数据 结构 优化 性 能 。 


首先 来 看 最 常用 的 数据 结构 一 list， 它 的 内 存 管理 类 似 C++ 的 
std::vector， 即 移 预 分 配 一 定数 量 的 “车 位 >， 当 预 分 配 的 内 存 用 完 时 ， 
又 继续 往 里 插入 元 素 ， 束 会 司 动 新 一 轮 的 内 存 分 配 。1list 对 象 会 根据 内 
存 增长 算法 申请 一 块 更 大 的 内 存 ， 然 后 将 原 有 的 所 有 元 素 找 贝 过 去 ， 
销毁 之 前 的 内 存 ， 再 插入 新 元 素 。 当 删除 元 素 时 ， 也 是 类 似 ， 删 除 后 
发 现 已 用 空间 比 预 分 配 空间 的 一 半 还 少时 ，1list 会 另外 申请 一 块 小 内 
存 ， 再 做 一 次 元 系 揽 贝 ， 然 后 销毁 原 有 的 大 内 存 。 可 见 ， 如 果 list 对 象 
经 常 有 元 素数 量 的 “巨变 ”"， 比 如 膨胀 、 收 缩 得 很 频繁 ， 那 么 应 当 考 虑 
使 用 deque。 


deque 就 是 双 端 队列 ， 同 时 具备 栈 和 队列 的 特性 ， 能 够 提供 在 两 端 
插入 和 删除 时 复杂 度 为 0(1) 的 操作 。 相 对 于 list， 它 最 大 的 优势 在 于 内 
存 管理 方面 。 如 果 不 熟 悉 C++ 的 std::deque， 那 么 可 以 把 deque 想 象 为 多 
个 list 连 在 一 起 ( 仅 为 比喻 ， 非 精确 描述 ) ，“ 像 火车 一 样 ， 每 一 万 车 
厢 可 以 载 客 ”， 它 的 每 一 个 "list" 也 可 以 存储 多 个 元 素 。 它 的 优势 在 插 
入 时 ， 已 有 空间 已 经 用 完 ， 那 么 它 会 申请 一 个 车厢? 来 容纳 狐 的 元 
紊 ， 并 将 其 与 已 有 的 其 他 “车 厢 ? 串 接 起 来 ， 从 而 避免 元 素 拷 贝 ; 在 删 
除 元 素 时 也 类 似 ， 某 个 “车 础 ”* 空 了 ， 束 “丢弃 ” 掉 ， 无 需 移 动 元 素 。 所 
以 当 出 现 元 素数 量 “ 巨 变 * 时 ， 它 的 性 能 比 list 要 好 上 许多 倍 。 


对 于 list 这 种 序列 容器 来 说 ， 除 了 pop(0) 和 insert(0，vVv) 这 种 插入 操 
作 非 常 耗 时 之 外 ， 查 找 一 元 到 是 否 在 其 中 ， 也 是 O(n) 的 线性 复杂 度 。 
在 C 语 言 中 ， 标 准 库 函 数 bsearch() 能 够 通过 二 分 查找 算法 在 有 序 队列 中 
快速 查找 是 否 存在 某 一 元 素 。 在 Python 中 ， 对 保持 list 对 象 有 序 以 及 在 
有 序 队 列 中 查找 元 素 有 非常 好 的 文 持 ， 这 是 通过 标准 库 bisect 来 实现 
时 。 


bisect 并 没有 实现 一 种 新 的 “数据 结构 ”， 其 实 它 是 用 来 维护 <* 有 序 
列表 ”的 一 组 函数 ， 可 以 兼容 所 有 能 够 随机 存 取 的 序列 容器 ， 比 如 
list。 它 可 使 在 有 序列 表 中 查找 某 一 元 素 变 得 非常 简单 。 


def index(a, x): 
i = bisect_ left(a, x) 
if i != len(a) and a[i] == x: 
return i 
raise ValueError 


傈 持 列表 有 序 需 要 付出 额外 的 维护 工作 ， 但 如 琳 业 务 需 要 在 元 素 
较 多 的 列表 中 频繁 查找 某 些 元 素 是 否 存 在 或 者 需要 频 葵 地 有 序 访问 这 
些 元 素 ， 使 用 bisect 则 相当 值得 。 


对 于 序列 容器 ， 除 了 搬入、 删除 、 查 找 之 外 ， 还 有 一 种 很 常见 的 
需求 是 束 获 取 其 中 的 极 大 值 或 极 小 值 元 素 ， 比 如 在 查找 最 短路 径 的 A* 
算法 中 束 需 要 在 Open 表 中 快速 找到 预 估 值 最 小 的 元 素 。 这 时 候 ， 可 以 
使 用 heapq 模 块 。 类 似 bisect，heapdq 也 是 维护 列表 的 一 组 函数 ， 其 中 最 
完 接触 的 必然 是 heapify()， 它 的 作用 是 把 一 个 序列 容 絮 转化 为 一 个 
堆 。 


>>> import heapq 
>>> import random 
>>> alist = [random.randint(0, 100) for i in xrange(10)] 
>>> alist 
[59, 62, 38, 18, 26, 92, 9, 57, 52, 97] 
>>> heapq.heapify(alist) 
i st 


>>> alis 
[9, 18, 38, 52, 26, 92, 59, 57, 62, 97] 


可 以 看 到 转化 为 堆 后 ，alist 的 第 一 个 元 素 alist[0] 是 整个 列表 中 最 小 
的 元 素 ，heapq 将 保证 这 一 点 ， 从 而 保证 从 列表 中 获取 最 小 值 元 素 的 时 
间 复 杂 度 是 O(1D)。 


>>> heapq.heappop(alist ) 
9 


>>> alist 
[18, 26, 38, 52, 97, 92, 59, 57, 62] 


除了 通过 heapify() 函 数 将 一 个 列表 转换 为 堆 之 外 ， 也 可 以 通过 
heappushO、heappopO 函 数 插入 、 删 除 元 素 ， 针 对 第 见 的 先 插 入 新 元 素 
再 获取 最 小 元 素 、 爷 获取 最 小 元 素 再 插入 新 元 素 的 需求 ， 还 有 
heappushpop(heap ，item) 和 heapreplace(heap,item) 函 数 可 以 快速 完成 。 
从 上 例 可 以 看 出 ， 每 次 元 素 增 减 之 后 序列 的 变化 都 很 大 ， 可 以 想象 维 
护 堆 结构 需要 付出 许多 额外 计算 ， 所 以 千 万 不 要 “提前 优化 ”乱用 
heapq， 以 免 市 来 性 能 问题 。 


除 此 之 前 ，heapq 还 有 3 个 通用 函数 值得 介绍 ， 其 中 merge() 能 够 把 
多 个 有 序列 表 归 并 为 一 个 有 序列 表 《返回 迭代 器 ， 不 占用 内 存 ) ， 而 
nlargest() 和 nsmallest() 类 似 于 C++ 中 的 std::nth_element()， 能 够 返回 无 序 
列表 中 最 大 或 最 小 的 n 个 元 素 ， 并 且 性 能 比 sorted(iterable,key=key)[:n] 
要 高 。 


除了 对 容 絮 的 操作 可 能 会 出 现 性 能 问题 外 ， 容 避 中 存储 的 元 素 也 
有 很 大 的 优化 空间 ， 这 是 因为 在 很 多 业务 中 ， 容 器 存储 的 元 素 往往 是 
同一 类 型 的 ， 比 如 都 是 整数 ， 而 且 整 数 的 取 值 范围 也 确定 ， 那 么 就 可 
以 使 用 array 优 化 程序 性 能 。 


array 实 例 化 的 时 候 需 要 指定 其 存储 的 元 素 类 型 ， 如 'c， 表 示 存 储 
的 每 个 人 元 素 都 相当 于 C 语 言 中 的 char 类 型 ， 占 用 内 存 大 小 为 1 字 节 。 


>>> import array 
>>> a = array.array('c', 'string') 


>>> a 
array('c', 'string') 
>>> a[0] = 'c' 


>>> print a 
array('c', 'ctring') 


从 上 例 可 以 看 出 ，array 对 象 与 str 不 同 ， 它 是 可 变 对 象 ， 可 以 随意 
修改 某 一 元 素 的 值 。 不 过 它 最 大 的 优势 在 于 更 小 的 内 容 占 用 。 


>>> import sys 

>>> a 

array('c', 'ctring') 
>>> sys.getsizeof(a) 
62L 

>>> 1 = list('cstring') 
>>> sys.getsizeof(1]) 
152 


看 ， 内 存 占 用 只 有 使 用 了 list 的 40% 左 右 ， 这 个 优化 效果 在 元 素数 
量 巨大 的 时 候 会 更 加 明显 。 此 外 ， 还 有 性 能 方面 的 提升 。 


>>> t = timeit,Timer("”'', join(a)"，"a = list('cstring')") 

>>> t.timeit() 

0.21462702751159668 

>>> t = timeit,.Timer("a.tostring()", "import array;a=array.array('c','cstring')") 
>>> t.timeit() 

0.1419069766998291 


从 容器 到 字符 串 的 转变 可 以 看 出 array 的 性 能 提升 是 比较 大 的 ， 但 
也 不 能 认为 array 在 什么 方面 都 有 更 好 的 性 能 。 


>>> t = timeit.Timer("a.reverse()", "import array;a=array.array('c', 'cstring')") 
>>> t.timeit() 

0.15056395530700684 

>>> t = timeit.Timer("a.reverse()", "a = list('cstring')") 

>>> t.timeit() 

0.08988785743713379 


看 ， 在 这 里 list 的 性 能 要 好 些 。 所 以 性 能 优化 一 定 要 根据 profiler 的 
剖析 结果 来 进行 ， 经 验 往往 靠不住 ， 这 和 “不 要 提前 优化 ”一 样 是 性 能 


优化 的 基本 原则 。 


建议 87: 元 分 利用 set 的 优势 


假设 有 这 么 个 需求 ， 和 希望 能 找 出 两 个 不 同 的 给 定 目 孙 下 相同 的 文 
件 名 。 该 上 起 么 实现 呢 ? 一 个 可 行 的 方法 是 列 出 两 个 目 孙 下 所 有 的 文件 
名 ， 然 后 逐一 比较 找 出 相同 的 项 。 实 现代 码 如 下 : 


import os 
def ListFilename(dirname,filesuffix): 
filelist = [] 
os.chdir(dirname) 
for files in os.listdir("."): 
if Ce endswith(filesuffix): 
filelist.append(files) # 
找 出 满足 条 件 的 后 缀 条 件 的 文件 加 入 到 列表 中 
return filelist 
filelistA = ListFilename("C:\\",".1l0g") 
filelistB = ListFilename("C:\\temp\\",".10g") 
filelistA.sort() 
对 列表 进行 排 请 
filelistB.sort() 


samefilelist=[] # 
来 存放 相同 文件 的 列表 

for a in filelistA: # 

对 列表 进行 循环 比较 


for b in filelistB: 
if a == b: 
samefilelist.append(a) 
print samefilelist 


示例 程序 选择 的 数据 结构 为 列表 ， 首 先 对 列表 进行 排序 ， 然 
行 逐 项 比较 ， 其 算法 的 复杂 度 为 O (mxn) ， 0 
的 长 度 。 那 么 请 读者 思考 一 下 ， 有 没有 更 好 的 选择 呢 ? 我 们 来 了 解 一 
下 集合 (set) 的 基本 知识 点 。Python 中 集合 是 通过 Hash 算 法 实现 的 无 
序 不 重复 的 元 素 集 。 创 建 集 合 通过 set(0) 方 法 来 实现 。 


>>> set( "hello") 

set([' h ， 'e', '1', '0']) 

>>> a= [2, 2, "34", (5, 6)] 

>>> set(a) # 
方便 地 将 列表 转换 为 set 

set([(5, 6), 1, 2, '34']) 


集合 中 常见 的 操作 以 及 对 应 的 时 间 复 杂 度 如 表 8-5 所 示 。 
表 8-5 ”集合 第 见 操作 及 时 间 复 杂 度 


寺 间 复杂 度 
操作 说 明 图 形 表示 示例 和 


平 均 最 差 


ss 和 + 的 并 集 ， >>> s.union(t) 
s.union(t) cu O(len(s)+len(n)) 
SU set([1, 2. 3, 4, 5, 6]) 


s 和 tt 的 交集 ， >>> s.intersection(t O(min(len(s).| Ol(len(s) * 
s.intersection(t) Cs ( (b ( ( (5s) (len(s) 
5 


I set([1, 2, 3, 4]) len(n)) len(n)) 
s 和 的 差 集 ， >>> s.difference(t) 
s-t， 在 s 中 存在 set([]) 
s.difference(t) 但 在 t 中 不 存在 的 lo) te O(len(s)) 
元 素 组 成 的 集合 set([5, 6]) 
>>>S=Sset([1.2.3]) 
>>> t= set([3.4.5.,6]) 
>>> s.symmetric _ 
difference(t) 
sf 和 it 的 并 set([1, el 5., 6]) 
SS 集 减 去 s 和 t 的 交 ~、 >>> s.union(t) Oden(s)) O(len(s) * 
difference(t) 全 e230) len(n)) 
>>> s.intersection(t) 
set([3]) 
>>> s.union(t)-s. 
intersection(t) 
set([1, 2, 4, 5, 6]) 


对 表 8-5 时 间 复 洒 度 这 列 仔细 分 析 会 发 现 ， 集 合 操 作 的 复杂 度 基本 
为 O(n)， 最 差 的 情况 下 时 间 复 杂 度 才 为 O(n^2) 。 回 过 头 来 看 本 开头 
的 例子 ， 你 是 不 古 会 有 这 人 么 一 个 想法 .如果 能 够 将 对 列表 的 操作 改 为 
对 集合 的 操作 ， 性 能 将 会 明显 提高 ? 那么 事实 是 不 是 如 我 们 所 料 呢 ? 
我 们 先 来 基于 一 些 基 本 操作 测试 一 下 这 两 种 数据 结构 在 性 能 上 的 表 
现 。 


1) 对 list 求 相同 的 元 素 ，set 求 并 集 。 当 元 素 规模 为 100 的 时 候 测试 
结 朱 显示 ，list 的 耗 时 大 约 为 set 操 作 的 15 倍 。 


Python -m timeit -n 1000 "[x for x in xrange(100) if x in xrange(60, 100)]" 
1000 loops, best of 3: 133 usec per loop 


Python -m timeit -n 1000 "set(xrange(100)).intersection(xrange(60, 100))" 
1000 loops, best of 3: 8.99 usec per loop 


当 元 素 规 模 为 1000 时 的 测试 结果 显示 ，list 耗 时 大 约 为 set 操 作 的 144 
倍 ， 如 表 8-6 所 示 。 


Python -m timeit -n 1000 "[x for x in xrange(1000) if x in xrange(600, 1000)]" 
1000 loops, best of 3: 9.93 msec per loop 

Python -m timeit -n 1000 "set(xrange(1000)).intersection(xrange(600, 1000))" 
1000 loops, best of 3: 68.9 usec per loop 


表 8-6 list 和 set 在 求 相同 元 素 操 作 时 的 性 能 比较 


操 作 时 间 (usec) 
133 
list 求 相同 元 素 
9930 
8.99 
set 求 交 集 
68.9 


1) 向 list 和 set 中 添加 元 素 ， 当 元 素 规模 为 100 的 时 候 ，1list 的 耗 时 为 
set 的 9 倍 。 


Python -m timeit -s "testset=set()" -s "for x in xrange(100): testset.add(x)" 
"for x in xrange(100): x in testset" 

100000 loops, best of 3: 11.5 usec per loop 

Python -m timeit -s "tmp = list()" -s "for x in xrange(100): tmp.append(x)" 
"for x in xrange(100): x in tmp" 

10000 loops, best of 3: 104 usec per loop 


当 元 素 规模 为 1000 的 时 候 ，1list 的 耗 时 约 为 set 的 89 倍 ， 如 表 8-7 所 
不 O 


操 作 时 间 (usec) 
11.5 
问 set 中 添加 元 素 
105 
104 


癌 list 中 添加 元 素 


9410 


Python -m timeit -s "testset=set()" -s "for x in xrange(1000): testset. 
add(x)” "for x in xrange(1000): x in testset" 

10000 loops, best of 3: 105 usec per loop 

Python -m timeit -s "tmp = list()" -s "for x in xrange(1000): tmp.append(x)" 
"for x in xrange(1000): x in tmp" 

100 loops, best of 3: 9.41 msec per loop 


从 表 8-7 所 示 的 测试 数据 中 可 以 看 出 ，set 在 某 些 操 作 上 明显 比 list 更 
高 效 ， 实 际 上 set 的 union、intersection、difference 等 操作 要 比 list 的 迭代 
要 快 。 因 此 如 果 涉 及 求 list 交 集 、 并 集 或 者 差 等 问题 可 以 转换 为 set 来 操 
作 。 因 此 本 节 最 初 的 例子 将 list 转 换 为 set 再 求 交 集会 更 为 简洁 高 效 ， 可 
修改 为 print set(filelistA)&set(filelist)。 修 改 后 测试 结果 表明 ， 即 使 规模 
在 10 左 右 ，set 的 效率 仍然 比 list 高 了 将 近 3 倍 (读者 可 以 自行 验证 ) 。 


建议 88: 使 用 multiprocessing 克 服 GIL 的 缺 
陷 


众所周知 ，G 开 的 存在 使 得 Python 中 的 多 线程 无 法 充分 利用 多 核 的 
优势 来 提高 性 能 ， 这 个 问题 困扰 着 很 多 开发 者 ， 也 使 很 多 人 备 受 打 
击 。 一 些 人 甚至 提出 质疑 要 求 移 去 GIL， 但 由 于 种 种 原因 目前 还 没有 
明确 的 迹象 表明 GIL 会 在 随后 的 版 本 中 消失 。 为 了 能 够 充分 利用 多 核 
优势 ，Python 的 专家 们 提供 了 另外 一 个 解决 方案 : 多 进程 。 
Multiprocessing 由 此 而 生 ， 它 是 Python 中 的 多 进程 管理 包 ， 在 Python2.6 
版 本 中 引进 的 ， 主 要 用 来 帮助 处 理 进程 的 创建 以 及 它们 之 间 的 通信 和 
相互 协调 。 它 主要 解决 了 两 个 问题 : 一 是 尽量 缩小 平台 之 间 的 差异 ， 
提供 高 层次 的 API 从 而 使 得 使 用 者 忽略 底层 IPC 的 问题 ;二 是 提供 对 复 
杂 对 象 的 共享 文 持 ， 文 持 本 地 和 远程 并 发 。 


类 Process 是 multiprocessing 中 较为 重要 的 一 个 类 ， 用 于 创建 进程 ， 
其 构造 函数 如 下 : 


Process([group [, target [, name [，args [, kwargs]]]]]) 


其 中 ， 参 数 target 表 示 可 调用 对 象 ，args 表 示 调 用 对 和 象 的 位 置 参 数 
元 组 ; kwargs 表 示 调 用 对 象 的 字典 ; name 为 进程 的 名 称 ; group 一 般 设 
置 为 None。 该 类 提供 的 方法 与 属性 基本 上 与 threading.Thread 类 一 致 ， 
包括 is_alive() 、join([timeout])、run() 、start() 、terminate()、 daemon 

(要 通过 start0 设 置 ) 、exitcode、name、pid 等 。 


不 同 于 线程 ， 每 个 进程 都 有 其 独立 的 地 址 空间 ， 进 程 间 的 数据 空 
间 也 相互 独立 ， 因 此 进程 之 间 数 据 的 共 理 和 传递 不 如 线程 来 得 方便 。 


庆 和 对 的 是 multiprocessing 模 块 中 都 提供 了 相应 的 机 制 : 如 进程 间 同 步 操 
作 原 语 Lock、Event、Condition、Semaphore， 传 统 的 管道 通信 机 制 
pipe 以 及 队列 Queue， 用 于 共享 资源 的 multiprocessing.Value 和 
multiprocessing.Array 以 及 Manager 等 。 


Mmultiprocessing 模 块 在 使 用 上 需要 注意 以 下 几 个 要 点 : 


1) 进程 之 间 的 通信 优先 考虑 Pipe 和 Queue， 而 不 是 Lock、Event、 
Condition、Semaphore 等 同步 原 语 。 进 程 中 的 类 Queue 使 用 pipe 和 一 些 
locks、semaphores 原 语 来 实现 ， 是 进程 安全 的 。 该 类 的 构造 函数 返回 
一 个 进程 的 共享 队列 ， 其 文 持 的 方法 和 线程 中 的 Queue 基 本 类 似 ， 罗 
了 方法 task_done0 和 join0 是 在 其 子 类 JoinableQueue 中 实现 的 以 外 。 

要 注意 的 是 ， 由 于 底层 使 用 pipe 来 实现 ， RE 
信 的 时 候 ， 传 输 的 对 象 必须 是 可 以 序列 化 的 ， 否 则 put 操 作 会 导致 
PicklingError。 此外， 为 了 提供 put 方 法 的 超时 控制 ，Queue 并 不 是 直接 
将 对 象 写 到 管道 中 而 是 先 写 到 一 个 本 地 的 缓存 中 ， 再 将 其 从 缓存 中 放 
入 pipe 中 ， 内 部 有 个 专门 的 线程 feeder 负 责 这 项 工作 。 由 于 feeder 的 存 
在 ，Queue 还 提供 了 以 下 特殊 方法 来 处 理 进 程 退 出 时 缓存 中 仍然 存在 
数据 的 问题 。 


:close(): 表明 不 再 存放 数据 到 queue 中 。 一 旦 所 有 缓冲 的 数据 刷新 
到 管道 ， 后 台 线 程 将 退出 。 


.join_thread0: 一 般 在 close 方 法 之 后 使 用 ， 它 会 阻止 直到 的 后 台 线 
程 退 出 ， 确 保 所 有 缓冲 区 中 的 数据 已 经 刷新 到 管道 中 。 


:cancel join_thread0: 需要 立即 退出 当前 进程 ， 而 无 需 等 竺 排队 的 
数据 刷新 到 底层 的 管道 的 时 候 可 以 使 用 该 方法 ， 表 明 无 需 阻 止 到 后 台 
线程 的 退出 。 


Multiprocessing 中 还 有 个 SimpleQueue 队 列 ， 它 是 实现 了 锁 机 制 的 
pipe， 内 部 去 挥 了 buffer， 但 没有 提供 put 和 get 的 超时 处 理 ， 两 个 动作 
都 是 阻塞 的 。 


除了 multiprocessing.Queue 之 外 ， 男 一 种 很 重要 的 通信 方式 是 
multiprocessing.Pipe ° emi 
其 中 duplex 默 认为 True， 表 示 为 双 同 管道 ， 否 则 为 单 辐 。 它 返回 一 个 
Connection 对 象 的 组 (conn1,conn2) ,分 别 代表 管道 的 两 端 。Pipe 不 支 
持 进 程 安全 ， 因 此 当 有 多 个 进程 同时 对 管道 的 一 端 进行 读 操作 或 者 写 
操作 的 时 候 可 能 会 导致 数据 丢失 或 者 损坏 。 因 此 在 进程 通信 的 时 候 ， 
如 果 是 超过 2 个 以 上 进程 ， 可 以 使 用 queue， 但 对 于 两 个 进程 之 间 的 通 
信和 而 言 Pipe 性 能 更 快 。 下 面 看 一 个 示例 : 


from multiprocessing import Process, Pipe, Queue 

import time 

def reader_pipe(pipe): 
output_p, input_p = pipe # 

返回 管道 的 两 端 
input_p.close() 
while True: 


try: 
msg = output_p.recv() # 
从 pipe 
中 读 取 消息 
except EOFError: 
break 
def writer _pipe(count, input_p): # 
写 消息 至 J 管道 中 
for i in xrange(O0, count): 
input_p.send(i) # 
发 送 消 息 
def reader ene # 
利用 队列 来 发 送 消息 
i True: 
msg = queue,get() # 
从 队列 中 获取 元 素 
If (msg == 'DONE'): 
break 


def writer_queue(count, queue): 
for ii in xrange(©0, count): 


queue .put(ii) # 
放 入 消息 队列 中 
queue.put('DONE') 
if name_ ==' main _': 
print "testing for pipe:" 
for count in [10**3, 10**4, 10**5]: 
output_p, input_p = Pipe() 
reader_p = Process(target=reader_pipe, args=((output_p, 


input_p), )) 


reader_p.start() # 


output_p.close() 
_Start = time.time() 
writer_pipe(count, input_p) # 


二 省 > 
全 让 息 到 管道 中 


input_p.close() 
reader_p.join() # 


等 待 进程 处 理 完毕 


print "Sending %s numbers to Pipe() took %s seconds" % (count, 
(time.time() - _start)) 
print "testing for queue:" 
for count in [10**3, 10**4, 10**5]: 
dueue = Queue() # 


涝 沁 
SN 


Hqueue 
了 通信 


reader_p = Process(target=reader_queue，args=((queue)，)) 
reader_p.daemon = True 

reader_p.start() 

_Start = time.time() 

writer_queue(count, queue) # 


写 消 息 到 queue 


reader_p.join() 
print "Sending %s numbers to Queue() took %s seconds" % (count, 
(time.time() - _start)) 


输出 比较 : 

testing for pipe: 

Sending 1000 numbers to Pipe() took 0.15299987793 seconds 
Sending 10000 numbers to Pipe() took 0.384999990463 Seconds 
Sending 100000 numbers to Pipe() took 2.09099984169 Seconds 
testing for queue: 

Sending 1000 numbers to Queue() took 0.169000148773 seconds 
Sending 10000 numbers to Queue() took 0.555000066757 seconds 
Sending 100000 numbers to Queue() took 3.0790002346 Seconds 


上 面 的 代码 分 别 用 来 测试 两 个 多 线程 的 情况 下 使 用 pipe 和 queue 进 
行 通信 发 送 相 同 数据 的 时 候 的 性 能 ， 其 中 与 pipe 相 天 的 函数 为 
reader_pipe() 和 writer_pipe()， 而 与 queue 相 关 的 主要 函数 为 
writer_queue() 和 reader_queue()。 从 函数 输出 可 以 看 出 ，pipe 所 消耗 的 
时 间 较 小 ， 性 能 更 好 。 


2) 尽量 避免 资源 共享 。 相 比 于 线程 ， 进 程 之 间 资 源 共 ee 
ww 众 源 共享 。 但 如 采 不 可 避免 ， 可 以 通 
multiprocessing.Value 和 multiprocessing.Array 或 者 
multiprocessing.sharedctypes 来 实现 内 存 共享 ， 也 可 以 通过 服务 进程 
管理 絮 Manager() 来 实现 数据 和 状态 的 共享 。 总 
体 来 说 共享 内 存 的 方式 更 快 ， 效 率 更 高 ， 但 服务 圳 进程 管理 大 


Manager0) 使 用 起 来 更 加 万 便 ， 并 且 文 持 本 地 和 远程 内 存 共享 。 我 们 通 
过 几 个 例子 来 看 一 下 各 目 使 用 需要 注意 的 问题 。 


示例 去 


: 使 用 Value 进行 内 存 共 享 。 


import time 
from multiprocessing import Process, Value 
def func(val): # 
多 个 进程 同时 修改 val 
for i In range(10): 
time.sleep(0.1) 
val.value += 1 


if name 


== ' main 


v = Value('i', 0) # 


使 用 value 


共享 内 存 


processList = [Process(target=func, args=(v,)) for i in range(10)] 
for p in processList: p.start() 
for p in processList: p.join() 

print v.value 


上 面 的 程序 输出 是 多 少 ? 100 对 吗 ? 你 可 以 运行 看 看 。Python 官 方 
文档 中 有 个 容易 计 人 迷惑 的 描述 : 在 Value 的 构造 函数 
multiprocessing.Value(typecode_or_type,*args[,lock]) 中 ， 如 果 lock 的 值 为 
True 会 创建 一 个 锁 对 象 用 于 同步 访问 控制 ， 该 值 默 认为 True。 因 此 很 

多 人 会 以 为 Value 是 进程 安全 的 ， 实 际 上 要 真正 控制 同步 访问 ， 需 要 实 
现 获 取 这 个 锁 。 因 此 上 面 的 例子 要 保证 每 次 运行 都 输出 100， 和 需要 将 函 
数 func 修 改 如 下 : 


def func(val): 
for i in range(10): 
time.sleep(0.1) 


with val.get_lock(): # 


仍然 需要 使 用 get_lock 
方法 来 获取 锁 对 象 


示例 二 


val.value += 1 


使 用 Manager 进 行内 存 共 享 。 


import multiprocessing 


def f(ns): 


NS.xX. 


append(1) 


ns.y.append('a') 
if name == '_ main 
manager = multiprocessing.Manager() 
ns = manager ,Namespace() 


ns.x= [ #manager 
内 部 包括 可 变 对 象 
ns,y = [ 


print "before process operation:', ns 
p = multiprocessing.Process(target=f, args=(ns, )) 
p.start() 
p.join() | 
rint ,after process operation', ns # 


p 
修改 根本 不 会 生效 


本 意 是 希望 x=[1]，y=[‘a*]， 程 序 输 出 是 不 是 期 望 的 结果 呢 ? 管 案 
是 否定 的 。 这 又 是 为 什么 呢 ? 这 是 因为 manager 对 象 仅 能 传播 对 一 个 可 
变 对 象 本 吴 所 做 的 修改 ， 如 有 一 个 managerlist0 对 象 ， 管 理 列表 本 刁 的 
任何 更 改 会 传播 到 所 有 其 他 进程 。 但 是 ， 如 果 容 器 对 象 内 部 还 包括 可 
修改 的 对 象 ， 则 内 部 可 修改 对 象 的 任何 更 改 都 不 会 传播 到 其 他 进程 。 
因此 ， 正 确 的 处 理 方式 应 该 是 下 面 这 种 形式 : 


import multiprocessing 
def f(ns,x,y): 
x.append(1) 
y.append('a') 
ns ,X= x 
将 可 变 对 象 也 作为 参数 传 入 
ns.y=Yy 
if name == '_ main | 
manager = multiprocessing.Manager() 
ns = manager ,Namespace( ) 
ns.x = [] 
ns,y = [] 
print 'before process operation:', ns 
p = multiprocessing.Process(target=f, args=(ns,ns.x,ns.y,)) 
p.start() 
p.join() 
print "after process operation', ns 


3) 注意 平台 之 间 的 差异 。 由 于 Linux 平 台 使 用 fork() 范 数 来 创建 进 
程 ， 因 此 父 进程 中 所 有 的 资源 ， 如 数据 结构 、 打 开 的 文件 或 者 数据 库 
的 连接 都 会 在 子 进程 中 共享 ， 而 Windows 平 台中 父子 进程 相对 独立 ， 
因此 为 了 更 好 地 保持 平台 的 兼容 性 ， 最 好 能 够 将 相关 资源 对 象 作为 子 
进程 的 构造 钞 数 的 参数 传递 进去 。 因 此 要 避免 如 下 方式 : 


f = None 

def child(f) : 
# do something 

if name == "'_ main _' 
f = open(filename, mode) 
p = Process(target=child) 


p.start() 
p.join() 、 
而 推荐 使 用 如 下 方式 
def child(f) : 
print f 
if name == "'_ main _' 
f = open(filename,mode 
p = Process(target=child,args=(f, )) # 
将 资源 对 象 作为 构造 贡 数 参数 传 入 
p.start() 
p.join() 


需要 注意 的 是 ，Linux 平 台 上 multiprocessing 的 实现 是 基于 C 库 中 的 
fork()， 所 有 子 进程 与 父 进程 的 数据 是 完全 相同 ， 因 此 父 进 程 中 所 有 的 
资源 ， 如 数据 结构 、 打 开 的 文件 或 者 数据 库 的 连接 都 会 在 子 进程 共 
享 。 但 Windows 平 台 上 由 于 没有 fork0O) 函 数 ， 父 子 进程 相对 独立 ， 因 此 
为 了 保持 平台 的 兼容 性 ， 最 好 在 脚本 中 加 
上 “if _name_ ==“ main >”:” 的 判断 。 这 样 可 以 避免 有 可 能 出 现 的 
RuntimeError 或 者 死 锁 。 


4) 尽量 避免 使 用 terminate() 方 式 终止 进程 ， 并 且 确 保 poolmap 中 
传 入 的 参数 是 可 以 序列 化 的 。 在 下 面 的 例子 中 ， 如 果 直 接 将 一 个 方法 
作为 参数 传 和 map 中 ， 会 抛 出 cPickle.PicklingError 寞 常 ， 这 是 因为 函数 
和 方法 是 不 可 序列 化 的 。 

def run(self): 


def f(x): 
return x*x 


p = Pool() 
return p.map(f, [1,2,3]) # 
接 传 入 函数 f 
cl = calculate() 
print cl.run() # 
地 出 cPickle,PicklingError 
开 币 


一 个 可 行 的 正确 做 法 如 下 : 


import multiprocessing 
def unwrap_self_f(arg, **kwarg): 
return calculate.f(*arg, **kwarg) # 
返回 一 个 对 象 
class calculate(object ) : 
def f(self,x): 
return x*x 
def run(self): 
p = multiprocessing.Pool() 
return p.map(unwrap_self_f, zip([self]*3,[1,2,3])) 
if name == " main ": 
cl = calculate() 
print cl.run() 


建议 89: 使 用 线程 池 提 高 效率 


我 们 知道 线程 的 生命 周期 分 为 5 个 状态 : 创建、 就绪、 运行、 阻塞 

和 终止 。 目 线程 创建 到 终止 ， 线 程 便 不 断 在 运行 、 就 绪 和 阻塞 这 3 个 状 
态 之 间 转 换 直 至 销毁 。 而 真正 占有 CPU 的 只 有 运行 、 创 建 和 销毁 这 3 个 
状态 。 一 个 线程 的 运行 时 间 由 此 可 以 分 为 3 部 分 : 线程 的 局 动 时 间 

(Ts) 、 线 程 体 的 运行 时 间 (Tr) 以 及 线程 的 销毁 时 间 (Td) 。 在 多 
线程 处 理 的 情景 中 ， 如 果 线 程 不 能 够 被 重用 ， 了 就 意味 着 每 次 创建 都 需 
要 经 过 启动、 销毁 和 运行 这 3 个 过 程 。 这 必然 会 增加 系统 的 相应 时 间 ， 
降低 效率 。 而 线程 体 的 运行 时 间 Tr 不 可 控制 ， 在 这 种 情况 下 如 何 提高 
线程 运行 的 效率 呢 ? 线程 池 便 是 一 个 解决 方案 。 


线程 池 的 基本 原理 如 图 8-6 所 示 ， 它 通过 将 事先 创建 多 个 能 够 执行 
任务 的 线程 放 入 池 中 ， 所 需要 执行 的 任务 通常 被 安排 在 队列 中 。 通 党 
情况 下 ， 需 要 处 理 的 任务 比 线程 数目 要 多 ， 线 程 执行 完 当 前 任务 后 ， 
会 从 从 列 牛 服 干 一 个 任务 ， 下旬 所 有 的 任务 蕊 经 完成 s 


任务 队列 
任务 (7 一 一 一 一 
| -| 线程 池 
(线程 N 】 [ 线程 | 人 线程 1 | 
ye NN 用 | (R77) RD) 
> Ty) ee 
es 一 一 


图 8-6 ”线程 池 的 基本 原理 


由 于 线程 预先 被 创建 并 放 入 线程 池 中 ， 同 时 处 理 完 当 前 任务 之 后 
并 不 销 虹 而 是 被 安排 处 理 下 一 个 任务 ， 因 此 能 够 避免 多 次 创建 线程 ， 
从 而 节省 线程 创建 和 销毁 的 开销 ， 带 来 更 好 的 性 能 和 系统 稳定 性 。 线 
程 池 技 术 适 合 处 理 突 发 性 大 量 请 求 或 者 需要 大 量 线程 来 完成 任务 、 但 
任务 实际 处 理 时 间 较 短 的 应 用 场景 ， 它 能 有 效 避 免 由 于 系统 中 创建 线 
程 过 多 而 导致 的 系统 性 能 负 谷 过 大 、 啊 应 过 慢 等 问题 。 


在 Python 中 利用 线程 池 有 两 种 解决 方案 : 一 是 目 己 实现 线程 池 模 
式 ， 二 是 使 用 线程 池 模 块 。 我 们 先 来 看 一 个 线程 池 柑 式 的 简单 实现 。 


import Queue, sys,threading 
import urllib2,os 

# 

处 理 request 


上 

的 工作 线程 

class Worker(threading.Thread): 

def _ init _( self, workQueue, resultQueue, **kwds): 

threading,Thread, init ( self, **kwds ) 
self.setDaemon( True ) 
self.workQueue = workQueue 
self.resultQueue = resultQueue 


def run( self ): 
while True: 
try: 


y 

callable, args, kwds = self.workQueue.get(False)# 

从 队列 中 取出 一 个 任务 

res = callable(*args, **kwds) 

self.resultQueue.put( res ) # 

存放 处 理 结果 到 队列 中 
except Queue.Empty: 


break 


class WorkerManager: # 
线程 池 管 理 器 
def _ init _( self, num_of_workers=10): 
self.workQueue = Queue.Queue( ) # 
请 求 队列 
self.resultQueue = Queue.Queue() # 
输出 结果 的 队列 


self.workers = [] 
self._recruitThreads( num_of_workers ) 
def _recruitThreads( self, num_of_workers ): 
for i in range( num_of_workers ): 
worker = Worker( self.workQueue, self.resultQueue )# 


创建 工作 线程 
self .workers.append(worker) # 
加 入 线程 队列 中 
def start(self): # 
启动 线程 


for w in self.workers: 
w.start() 
def wait_for_complete( self): 
while len(self.workers): 
worker = self.workers.pop() # 


从 池 中 取出 一 个 线程 处 理 请 求 


worker ,join( 
if worker.isAlive() and not Self.workQueue.empty() : 
self .workers.append( worker ) 


重新 加 入 线程 池 中 
print "All jobs were completed." 
def add_ job( self, callable, *args, **kwds ): 
self.workQueue.put( (callable, args, kwds) ) # 
往 工作 队列 中 加 入 请 求 
def get_result( self, *args, **kwds ): # 
获取 处 理 结果 


return self.resultQueue.get( *args, **kwds ) 
def download_file(url): 
print "begin download",url 
urlhandler = urllib2.urlopen(ur]l) 
fname = os.path.basename(url)+".html" 
with open(fname, "wb") as f 
while True: 
chunk = urlhandler.read(1024) 
if not chunk: break 
f.write(chunk) 
urls = ["http://wiki,.python.org/moin/WebProgramming", 
"https://www.createspace.com/3611970", 
] "http://wiki.python.org/moin/Documentation" 
wm = WorkerManager (2) # 
创建 线程 池 
for i in urls: 
wm.add_job( download file, i ) # 
将 所 有 请 求 加 入 队列 中 
wm,Start() 
wm.wait_for_complete() 


自行 实现 线程 池 ， 需 要 定义 一 个 Worker 处 理工 作 请 求 ， 定 义 
WorkerManage 来 进行 线程 池 的 管理 和 创建 ， 它 包含 一 个 工作 请 求 列 队 
和 执行 结果 列队 ， 有 具体 的 下 载 工作 通过 download_file0) 方 法 来 实现 。 


相 比 目 己 实现 的 线程 池 模型 ， 使 用 现成 的 线程 池 模 块 往往 更 简 
单 。Python 中 线程 池 模 块 的 下 载 地 址 为 : 
https://pypi.python.org/pypi/threadpool。 该 模块 提供 了 以 下 基本 类 和 方 


人 


1) threadpool.ThreadPool: 线程 池 类 ， 主 要 的 作用 是 用 来 分 派 任务 
请 求 和 收集 运行 结果 。 主 要 有 以 下 方法 。 


-init (self, num_workers, q_size=0, resq_size=0, poll_timeout=5): 
建立 线程 池 ， 并 启动 对 应 num_workers 的 线程 ，q_size 表 示 任 务 请 求 队 
列 的 大 小 ，resq_size 表 示 存 放 运 行 结果 队列 的 大 小 。 


:createWorkers(self num_workers, poll_timeout=5): 将 num_workers 


数量 对 应 的 线程 加 入 线程 池 中 。 


.dismissWorkers(self, num_workers, do_join=False): 告诉 


num_workers 数 量 的 工作 线程 在 执行 完 当 前 任务 后 退出 。 


-joinAllDismissedWorkers(self): 在 设置 为 退出 的 线程 上 执行 
Thread.join ° 


:putRequest(self, request, block=True, timeout=None): 将 工作 请 求 放 
入 队列 中 。 


:poll(self, block=False): 处 理 任务 队列 中 新 的 请 求 。 


-wait(self): 阻塞 用 于 等 待 所 有 执行 结果 。 注 意 当 所 有 执行 结果 返 
回 后 ， 线 程 池 内 部 的 线程 并 没有 销毁 ， 而 在 等 待 靳 的 任务 。 因 此 ， 
wait0 之 后 仍然 可 以 再 次 调用 pool.putRequests0 往 其 中 添加 任务 。 


2) threadpool.WorkRequest: 包含 有 具体 执行 方法 的 工作 请 求 类 。 
3) threadpool.WorkerThread: 处 理 任务 的 工作 线程 ， 主 要 有 run() 方 
法 以 及 dismiss(0) 方 法 。 


4) 
makeRequests(callable ,args_list,callback=None,exc_callback=_handle_thr 
ead_exception): 主要 的 函数 ， 作 用 是 创建 具有 相同 的 执行 函数 但 参数 
不 同 的 一 系列 工作 请 求 。 


最 后 看 一 个 例子 ， 将 上 一 下 多 线程 下 载 的 例子 改 为 用 线程 池 来 实 
现 。 


import urllib2 
import os 


Import time 
import threadpool 
def download_file(url): 
print "begin download",url 
urlhandler = urllib2.urlopen(ur1l) 
fname = os.path.basename(url)+".html" 
with open(fname, "wb") as f: 
while True: 
chunk = urlhandler.read(1024) 
if not chunk: break 
f.write(chunk) 
urls = ["http://wiki,.python.org/moin/WebProgramming", 
"https://www.createspace.com/3611970", 
"http://wiki,.python.org/moin/Documentation" 


] 
pool_ size = 2 
pool = threadpool.ThreadPool(pool size) # 


创建 线程 池 ， 大 小 为 2 

requests = threadpool.makeRequests(download file, urls) # 

创建 工作 请 求 

[pool.putRequest(req) for req in requests] 

print "putting request to pool" 

pool.putRequest(threadpool .workRequest(download_file,args=["http://chrisarndt. 
de/projects/threadpool/api/", ])) # 

将 具体 的 请 求 放 入 线程 池 

pool.putRequest(threadpool .WorkRequest(download file,args=["https://pypi.python. 
org/pypi/threadpool1", ])) 

pool.poll() # 

处 理 任务 队列 中 的 新 的 请 求 

pool.wait() 

print "destory all threads before exist" 

pool.dismissWorkers(pool_ size, do_join=True) # 

完成 后 退出 


建议 90: 使 用 C/C++ 模块 扩展 提高 性 能 


Python 具有 民 好 的 可 扩展 性 ， 利 用 Python 提供 的 API， 如 安 、 关 
型 、 芳 数 等 ， 可 以 让 Python 方 便 地 进行 C/C++ 扩展 ， 从 而 获得 较 优 的 执 
行 性 能 。 所 有 这 些 API 却 包含 在 Python.h 的 头 文件 中 ， 在 编写 C 代 码 的 时 
候 引 入 该 头 文件 即 可 。 来 看 一 个 简单 的 扩展 例子 。 


1) 先 用 C 实 现 相 天 函数 : 以 实现 素数 判断 为 例 ， 文 件 命 名 为 
testextend.c。 也 可 以 直接 使 用 C 语 言 实 现 相 关 函 数 功能 后 再 使 用 Python 
进行 包装 。 


Include "Python.h" 
static Pyobject *pr_isprime(PyObject *self, PyObject *args){ 
int n, num; 
if (!PyArg_ParseTuple(args, "i", &num)) # 
解析 参数 
return NULL; 
If (num < 1) { 
return Py_BuildVvalue("i", 0); #C 
类 型 的 数据 结构 转换 成 Python 
对 象 
和 


n= num - 1; 
while (n > 1){ 
If (num%n == 0) return Py_BuildValue("i", 0);; 
nN--, 


} 
return Py_BuildvValue("i", 1); 
} 
static PyMethodDef PrMethods[] = 
{"isPprime", pr_isprime, METH_VARARGS, "check if an input number is prime 
or not."}, 
{NULL, NULL, 0, NULL} 


}; 
void initpr(void){ 
(void) Py_InitModule("pr", PrMethods); 


上 面 的 代码 包含 以 下 3 部 分 。 


:导出 芳 数 :，C 模 块 对 外 芭 露 的 接口 久 数 pr_isprime， 融 有 self 和 args 
两 个 参数 ， 其 中 参数 args 中 包含 Python 解释 絮 要 传递 给 C 函 数 的 所 有 


参数 ， 通 常 使 用 函数 PyArg_ParseTuple() 来 获得 这 些 参 数值 。 
:初始 化 函数 :以 便 Python 解 释 絮 能 够 对 模块 进行 正确 的 初始 化 ， 
初始 化 时 要 以 init 开 头 ， 如 initp。 


方法 列表 : 提供 给 外 部 的 Python 程序 使 用 的 一 个 C 模 块 画 数 名 称 
射 表 PrMethods。 它 是 一 个 PyMethodDef 结 构 体 ， 其 中 成 员 依 次 表示 方 
法 名 、 导 出 函数 、 参 数 传递 方式 和 方法 摘 述 。 看 下 面 这 个 例子 。 


struct PyMethodDef { 


char* ml]_name; # 
方法 
PyCFunction ml_meth,; # 
导出 丽 妆 
int ml_flags,; # 
参数 传递 方法 

char* ml_doc; # 

法 描述 


参数 传递 方法 一 般 设置 为 METH_VARARGS， 如 果 想 传 入 关键 字 
参数 ， 则 可 以 将 其 与 METH_KEYWORDS 进 行 或 运算 。 若 不 想 接 受 任 
何 参 数 ， 则 可 以 将 其 设置 为 METH_NOARGS。 该 结构 体 必须 以 
{NULL,NULL,0,NULL} 所 表示 的 一 条 空 记录 来 结尾 。 


2) 编写 setup.py 脚 本 。 


from distutils.core import setup, Extension 
module = Extension('pr', sources = ['testextend.c']) 
setup(name = 'Pr test', version = '1.0', ext_modules = [module]) 


3) 使 用 python setup.py build 进 行 编译 ， 系 统 会 在 当前 目录 下 生成 
一 个 build 子 目录 ， 里 面包 含 pr.so 和 pr.o 文 件 ， 如 图 8-7 所 示 。 


Inning buaila 

Zunning DailQ exXxt 

pbuilding 'pr' extension 

creating build 

creating build/temp.linux-x386 64-2.4 
[ee 


RCE=2 -fexceptions -fstack-protector --param=ssp-buffer-size=4 -m64 -mtune=gener 
ic -D GNU SOURCE -fPIC -fPIC -I/usr/include/python2.4 -C testextend.c -0o build/t 
enp.1inux-x86 64-2.4/testextend.o 

[ep build/lib,.1linux-x86 64-2.4 

gcc -pthread -shared build/tenmp.linux-x86 £64-2.4/testextend.o -OO build/lib,.1linux 
-x86 64-2.4/pr.so 


图 8-7 ”使 用 Python 进 行 编译 


4) 将 生成 的 文件 prso 复 制 到 Python 的 site_packages 目 录 下 ， 或 者 将 
prso 所 在 目录 的 路 径 添加 到 sys.path 中 ， 就 可 以 使 用 C 扩 展 的 模块 了 ， 如 
图 8-8 所 示 。 


>>> import pI 


En sprime ll 
>>> pr.isprinme (2) 
Hb 


图 8-8 ”导入 编译 后 的 模块 


更 多 天 于 C 模 块 扩展 的 内 容 请 读者 参考 http://docs.python.org/2/c- 


api/index.html ° 


建议 91: 使 用 Cython 编写 扩展 模块 


Python-API 让 大 家 可 以 方便 地 使 用 C/C++ 编写 扩展 模块 ， 从 而 通过 
重 写 应 用 中 的 瓶颈 代码 获得 性 能 提升 。 但 是 ， 这 种 方式 仍然 有 几 个 问 
题 让 Pythonistas 非 常 头 疼 : 


1) 和 擎 握 C/C++ 编 程 语 言 、 工 具 链 有 巨大 的 学 习 成 本 ， 如 果 没 有 这 
方面 的 技术 积累 ， 束 无 法 快速 编写 代码 ， 解 决 性 能 瓶颈 。 


2) 即便 是 C/C++ 熟 手 ， 重 写 代码 也 有 非常 多 的 工作 ， 比 如 编写 特 
定数 据 结 构 、 算 法 的 C/C++ 版 本 ， 费 时 费力 还 容易 出 错 。 


所 以 整个 Python 社 区 都 在 努力 实现 一 个 “编译 右 ”*"， 它 可 以 把 
Python 代 码 直 接 编译 成 等 价 的 C/C++ 代码 ， 从 而 获得 性 能 提升 。 通 过 
开发 人 员 的 艰苦 工作 ， 涌 现 出 了 一 批 这 类 工具 ， 如 Pyrex、Py2C 和 
Cython 等 。 而 从 Pyrex 发 展 而 来 的 Cython 是 其 中 的 集大成 者 。 


Cython 通 过 给 Python 代 码 增加 类 型 声明 和 直接 调用 C 芳 数 ， 使 得 从 
Python 代 码 中 转换 的 C 代 码 能 够 有 非常 高 的 执行 效率 。 它 的 优势 在 于 它 
几乎 支持 全 部 Python 特 性 ， 也 就 是 说 ， 基 本 上 所 有 的 Python 代 码 都 是 
有 效 的 Cython 代 码 ， 这 使 得 将 Cython 技 术 引 入 项 目的 成 本 降 到 最 低 。 
除 此 之 外 ，Cython 支 持 使 用 decorator 语 法 声明 类 型 ， 甚 至 支持 专门 的 
类 型 声明 文件 ， 以 使 原 有 的 Python 代 码 能 够 继续 保持 独立 ， 这 些 特性 
都 使 它 得 到 广泛 应 用 ， 如 PyAMFE、PyYAML 等 库 都 使 用 它 编写 自己 的 


安 狼 Cython 非 常 简单 ， 使 用 pip 能 够 很 方便 地 妆 猴 。 


pip install 
-U cython 


编译 时 间 有 点 漫长 ， 稍 作 等 待 ，Cython 残 目 动 安装 好 了 “。 然 后 我 
们 可 以 尝试 拿 之 前 的 arithmetic.py 演 试 一下， 执行 命令 cython 
arithmetic.py， 很 快 就 完成 了 ， 但 其 实生 成 了 一 个 arithmetic.c 文 件 ， 它 
非常 巨大 ， 大 概 会 有 两 三 和 于 行 。 是 的 ， 你 没有 看 错 ， 只 有 8 行 有 效 代 码 
的 arithmetic.py 文 件 生成 的 C 代 码 有 两 三 千 行 。 它 的 部 分 代码 (subtract 
函数 对 应 的 代码 的 一 分 部 ) 如 下 : 


/* Python wrapper */ 
static PyObject *__pyx_pw_1i0arithmetic 7Ysubtract(PyObject *__pyx_self, PyObject 
*__pyx_args, PyObject *__pyx_kwds); /*proto*/ 
static PyMethodDef _ pyx_mdef 10arithmetic Ysubtract = 
{__Pyx_NAMESTR("subtract"), 
(PyCFunction) pyx_pw_10arithmetic_ 7subtract, METH_VARARGS |METH_KEYWORDS, 
__ Pyx_DOCSTR(0)}; 
static PyObject *__pyx_pw_10arithmetic 7Ysubtract(PyObject *__pyx_self, PyObject 
*__pyx_args, PyObject * pyx_kwds) { 
PyObject *_ pyx v x = 0; 
PyObject *_ pyx vy = 0; 
int __pyx_lineno = 0; 
const char *__pyx_filename = NULL， 
int __pyx_clineno = 0; 
PyObject *__pyx_r = 0; 
__Pyx_RefNannyDeclarations 
__Pyx_RefNannySetupContext("subtract (wrapper)", 0); 


static PyObject **__pyx_pyargnames[] = {& pyx_n_s x,& pyx_n_s_y,0}; 
PyObject* values[2] = {0,0}; 


看 不 懂 ? 没有 关系 ， 机 器 生成 的 代码 本 来 束 不 古 为 了 给 人 看 的 ， 
还 是 把 它 交 给 编译 器 吧 。 


$ gcc -shared -pthread -fPIC -fwrapv -02 -Wall -fno-strict-aliasing \ 
-I/usr/include/python2.7 -o arithmetic.so arithmetic.c 


又 是 一 阵 等 每 ,编译 、 链 接 工作 完成 后 ，arithmethic.so 文 件 束 生 
成 了 。 这 时 候 可 以 像 import 普 通 的 Python 模 块 一 样 使 用 它 。 


$ python 

>>> import arithmetic 

>>> arithmetic.subtract(2, 1) 
1 


每 一 次 都 需要 编译 、 等 竺 未 免 麻 烦 ， 所 以 Cython 很 体贴 地 提供 了 
无 需 显 式 编译 的 方案 : pyximport。 只 要 将 原 有 的 Python 代码 后 缀 名 
从 .py 改 为 .pyx 即 可 。 


$ cp arithmetic.py arithmetic.pyx 
$ cd -~ 
$ python 
>>> Import arithmetic 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
ImportError: No module named arithmetic 
>>> import pyximport; pyximport.install() 
(None, <pyximport.pyximport.PyxImporter object at Ox1i0fbd05d0>) 
>>> import arithmetic 
>>> arithmetic. file _ 
'/Users/apple/ .pyxbld/1lib.macosx-10.8-x86_64-2.7/arithmetic.so' 


从 _ file_ 属性 可 以 看 出 ， 这 个 .pyx 文 件 已 经 被 编译 链接 为 共享 库 
了 ，pyximport 的 确 方便 啊 ! 掌握 了 Cython 的 基本 使 用 方法 之 后 ， 就 可 
以 更 进一步 学 习 了 。 接 下 来 要 谈 的 是 如 何 通过 Cython 把 原 有 代码 的 性 
能 提升 许多 倍 ， 是 的 ，Cython 就 是 这 么 快 ! 


在 GIS 中 ， 经 党 需要 计算 地 球 表 面 上 两 点 之 间 的 距离 。 


import math 
def great_circle(lon1,1at1,1on2,1at2): 
radius = 3956 #miles 
x math.pi/180.0 
a (90.0-lat1)*(x) 
b (90.0-lat2)*(x) 
theta = (lon2-1lon1)*(x) 
c= math.acos((math.cos(a)*math.cos(b)) + 
(math.sin(a)*math.sin(b)*math.cos(theta))) 
return radius*c 


这 上段 Python 代 码 的 执行 效率 可 以 通过 timeit 来 确定 。 


Import timeit 

lon1i, lat1i, lon2, lat2 = -72,345，34.323，-61.823，54.826 

num = 500000 

t = timeit.Timer("pi.great_circle(%f,%f,%f,%f)" % (loni,1lat1,1on2,1at2), 
"import p1") 

print "Pure python function", t.timeit(num), "sec" 


执行 50 万 次 大 概 需 要 2.2 秒 ， 太 慢 了 。 接 下 来 笑 试 使 用 Cython 进 
行 改写 ， 为 了 避免 一 下 子 代 码 变 化 太 大 ， 只 使 用 Cython 的 类 型 声明 “ 技 


能 ”， 看 看 能 达到 什么 效果 。 


Import math 
def great_circle(float lon1,float lati1,float lon2,float lat2): 
cdef float radius = 3956.0 
cdef float pi = 3.14159265 
cdef float x = pi/180.0 
cdef float a,b,theta,c 
a= (90.0-lat1)*(x) 
b = (90.0-lat2)*(x) 
theta = (lon2-1lon1)*(x) 
c= math.acos((math.cos(a)*math.cos(b)) + 
(math.sin(a)*math.sin(b)*math.cos(theta))) 
return radius*c 


通过 给 great_circle 函 数 的 参数 、 中 间 变 量 增加 类 型 声明 ，Cython 
代码 看 起 来 跟 原 有 的 Python 代码 并 无 很 大 不 同 ， 业 务 逻 辑 代 码 一 行 没 


改 。 使 用 timeit 的 测定 结 打 是 大 概 1.8 秒 ， 提 速 将 近 二 成 ， 说 明 类 型 声 


明 对 性 能 提升 非常 有 帮助 。 这 时 候 ， 还 有 一 个 性 能 瓶颈 需要 解决 ， 


就 是 : 调用 的 math 库 是 一 个 Python 库 ， 性 能 较 差 。 解 决 这 个 问题 ， 
要 用 到 Cython 的 男 一 个 技能 直接 调 用 C 函 数 。 


cdef extern from "math.h": 
float cosf(float theta) 
float sinf(float theta) 
float acosf(float theta) 
def great_circle(float loni1,float lat1,float lon2,float lat2): 
cdef float radius = 3956.0 
cdef float pi = 3.14159265 
cdef float x = pi/180.0 
cdef float a,b,theta,c 
a= (90.0-lat1)*(x) 
b = (90.0-lat2)*(x) 
theta = (lon2-lon1)*(x) 
c = acosf((cosf(a)*cosf(b)) + (sinf(a)*sinf(b)*cosf(theta))) 
return radius*c 


那 


司 避 
TI 


Cython 使 用 cdef extern from 语 法 ， 将 math.h 这 个 C 语 言 库 头 文件 里 
声明 的 cofs、sinf 、acosf 等 范 数 导 入 代码 中 。 因 为 减少 了 Python 函数 调 
用 和 调用 时 产生 的 类 型 转换 开销 ， 使 用 timeit 测 定 这 个 版 本 的 代码 的 效 
率 仅 需要 大 概 0.4 秒 的 时 间 ， 人 性 能 提升 了 5 倍 有 余 。 


通过 这 个 例子 ， 可 以 掌握 Cython 的 两 大 技能 ， 类 型 声明 和 直接 调 
用 C 画 数 。 只 要 再 进一步 参考 Cython 的 文档 ， 就 可 以 尝试 在 项 目 中 使 
用 了 。 比 起 直接 使 用 C/C++ 编写 扩展 模块 ， 使 用 Cython 的 方法 方便 得 
多 ,成 本 也 更 低 。 


除了 使 用 Cython 编 写 扩 展 模 块 提升 性 能 之 外 ，Cython 也 可 用 来 把 
之 前 编写 的 C/C++ 代码 封装 成 .so 模块 给 Python 调 用 (类 似 
boost.python/SWIG 的 功能 ) ，Cython 社 区 已 经 开发 了 许多 目 动 化 工 
上 县。 


一 人 


